l| 


华章 IT 





SSD 技 术 社 区 SSDFans 核 心 成 员 撰 写 ， 产 业界 和 学 术 界 10 余 位 专家 高 度 评价 并 推荐 


从 产品 、 技 术 和 应 用 三 个 维度 系统 、 全 面 讲解 SSD 的 产品 形态 、 整 体 架构 、 工 作 原 理 ， 
以 及 各 个 功能 模块 


ST 
AN ra 7 t. 
"- uL i e a 

- 


7 PAN 1r OSD 
固态 仔 依 核心 技 术 、 原 理 与 实 屁 


SSDFans 包 著 





深入 浅 出 SSD: 固态 存储 核心 技术 、 原 理 与 实战 


E 


SSDFans 者 

ISBN: 978-7-111-59979-1 

本 书 纸 版 由 机 械 工 业 出 版 社 于 2018 年 出 版 ， 电 子 版 由 华章 分 社 〈 北 京华 
间 图 文 信息 有 限 公 司 ， 北 京 奥 维 博世 图 书 发 行 有 限 公 司 ) 全 球 范 围 内 制 
作 与 发 行 。 

WAMA, ZAUR 


客服 热线 : + 86-10-68995265 








客服 信箱 : service(pbbbvip.com 
官方 网 址 : www.hzmedia.com.cn 
新 浪 微 博 @ 华 章 数 媒 


WEARS 华章 电子 书 〈 微 信和 号: hzebook) 





Hx 


赞誉 
推荐 序 一 
推荐 序 二 
We 
第 1 章 ”SSD 综 述 
1.1 引子 
12 SSD vs HDD 
13 ”固态 存储 及 SSD 技 术 发 展 史 
14 SSD 基 本 工作 原理 
1.5 SSD 产 品 核心 参数 
1.5.1 4a EB 
1.5.2 ”性 能 剖析 
15.3 ”寿命 剖析 
15.4 ”数据 可 靠 性 剖析 
1.5.5” 功 耗 和 其 他 剖析 
15.6 ”SSD 系统 兼容 性 
166 ”接口 形态 
1.6.1 2.5 寸 
1.6.2 M.2 
1.6.3 BGA SSD 
1.6.4 SDP 
1.6.5 U.2 
1.7 固态 存储 市 场 
17.4 ”SSD 正在 取代 HDD 
1.7.2 SSD、HDD 应 用 场合 
1.7.3 SSD 市 场 情 况 
第 2 章 SSD 主 控 和 全 闪存 阵列 
2.1 SSD 系 统 架 构 
2.1.1 前 端 
2.1.12 ” 主 控 CPU 
2.1.3 ”后 端 
2.2 SSD 主 控 厂 商 
2.2.4 Marvell 主 控 
222 三星 主 控 
2.2.3 国产 主 控 ， 谁 主 沉 浮 


2.3 案例: 硅 格 〈SiliconGo) SG9081 主 控 
2.4 案例 : 企业 级 和 消费 级 主 控 需求 的 归 一 化 设计 
2.5 案例 : DERA (得 瑞 领 新 ) NVMe 控 制 器 TAI 和 NVMe SSD 产品 
2.6 全 闪存 阵列 AFA 

2.6.1 整体 解剖 

2.6.2” 便 件 架构 

2.6.3 ”软件 架构 

2.04 工作 流程 

2.6.5 ”应 用 场景 

2.7” 带 计算 功能 的 固态 硬盘 
第 3 章 SSDD: 闪存 

3.1 ”闪存 物理 结构 

3.1.1 闪存 器 件 原 理 

3.1.2 SLC、MLC 和 TLC 

2:13 PST MJ 

3.4. BR. "2. REH 

315 三 维 闪存 

3.1.6 Charge ” Trap 型 闪存 

3.1.7 3D XPoint 

3.2 ”闪存 实战 指南 

3.2.1 异步 时 序 

3.2.2 ”同步 时 序 

3.2.3 ”闪存 命令 集 

3.2.4 ”闪存 寻 址 

32.5 读 、 写 、 擦 时 序 

3.2.6 ”ONFI 与 Toggle 协 议 之 争 
333 ”闪存 特性 

3.3.1 闪存 存在 的 问题 

33.2 ”寿命 

3.3.3 ”闪存 测试 

3.3.4 ”MLC 使 用 特性 

3.3.5” 读 干扰 

3.3.6 ”闪存 数据 保存 期 

3.4 闪存 数据 完整 性 

3.4.1 ” 读 错 误 来 源 

3.4.2 ”重读 

3.4.3 ”ECC 纠 错 码 


3.4.4 RAID 
3.45 “数据 随机 化 
第 4 章 ” ”SSD 核心 技术 : FTL 
41 ”FTL 综述 
42 ”映射 管理 
4.2.1 ”映射 种 类 
4..2 ”映射 基本 原理 
4.2.3 HMB 
4.2.4. 映射 表 刷 新 
43 垃圾 回收 
4.3.1 垃圾 回收 原理 
4.3.2” 写 放大 
4.3 ”垃圾 回收 实现 
43.4 垃圾 回收 时 机 
44 Trim 
45 磨损 平衡 
46 HEKER 
47 坏 块 管理 
427.1. 坏 块 来 源 
4.7.2 ” 坏 块 鉴别 
4.7.3” 坏 块 管理 策略 
4.8 SLC cache 
4.9 RD&DR 
4.10 Host Based FTL 
4.10.1 Device Based FTL 的 不 足 
4.10.2 Host Based FTL 架 构 
440.3 百度 的 软件 定义 闪存 
第 5 章 ” PCIe 介绍 
5.1 从 PCIe 的 速度 说 起 
5.2 PCIe 拓扑 结构 
5.3 ”PCIe 分 层 结 构 
5.4 PCIe TLP 类 型 
5.5 PCIe TLP 结 构 
5.6 ” PCIe 配置 和 地 址 空间 
5.7 TLP 的 路 由 
5.8 数据 链 路 层 
5.9 YE 


5.10 PCIe Reset 
5.11 PCIe Max Payload Size 和 Max Read Request 
5.12. PCIe SSD 热 插 拔 
5.13 SSD PCIe 链 路 性 能 损耗 分 析 
第 6 章 NVMe 介 绍 
6.1 AHCISINVMe 
6.2 NVMe 综 述 
6.3 ”吉祥 三 宝 : SQ、CQ 和 DB 
6.44 HEIHE: PRP 和 SGL 
6.5 Trace 分析 
6.6 ”并 到 并 数据 保护 
6.7 Namespace 
68 NVMe over Fabrics 
第 7 章 SSD 测 试 
7.1 主流 SSD 测 试 软件 介绍 
7.1.1 SSD 性 能 测试 第 一 神器 一 一 FIO 
7.1.2 AS SSD Benchmark 
7.1.3 ATIO Disk Benchmark 
7.1.4 CrystalDiskMark 
7.1.5 PCMark Vantage 
7.1.6 IOMeter 
7.2 ”验证 与 确认 
7.3 Wu VADER 
7.3.1 Emulator 
7.3.2 ”协议 分 析 仪 
7.3.3 Jammer 
7.4 回归 测试 
7.5 ”DevSlp 测 试 
7.6 PCle InterOp 
7.7 WA 测试 
7.8 ”耐久 度 测 试 
7.9 认证 Certification 
7.10 SSD Performance 测试 
第 8 章 ”SSD 电 源 管理 
8.1 SATA 省 电 模 式 Partial 和 Slumber 
8.2 ”SATA 超级 省 电 模 式 DevSlp 
8.3 ”SATA 终极 省 电 模 式 RTD3 


Size 


8.4 PCIe 省 电 模 式 ASPM 
8.5 PCIe 其 他 省 电 模 式 
8.6 NVMe 动 态 电源 管理 
8.7 Power Domain 
fox: ECC 原理 
9.1 信号 和 噪声 
9.2 ”通信 系统 模型 
9.3” 纠 错 编 码 的 基本 思想 
9.3.1 ”编码 距离 
9.32 ”线性 经 
9.3.3 校 验 矩 阵 H 和 生成 矩阵 G 
9.4 LDPC 码 原理 简介 
9.4.1 LDPC 是 什么 
9.4.2 Tanner 图 
95 LDPC 解 码 
9.5.1 ”Bit-flipping 算 法 
9.5.0 ”和 积 信息 传播 算法 
9.6 ” LDPC 编码 
9.7 LDPC 在 SSD 中 的 应 用 
9.7.1 NAND 会 出 错 
9.72 NAND 纠 错 模型 
9.723 LDPC 纠 错 流 程 








区 验 CParity-Check) 


im] 


〈 排 名 不 分 先后 ) 


随 着 闪存 技术 的 发 展 和 智能 终端 对 数据 交互 性 能 的 要 求 日 趋 提高 ， 
SSD 被 越 来 越 多 地 应 用 于 各 种 场景 中 。 本 书 于 纸 SSD 的 产品 、 技 术 、 应 
用 等 角度 展开 阐述 ， 既 严谨 又 全 面 ， 给 SSD 的 从 业 人 员 和 爱好 者 们 提供 
了 一 个 完整 的 视图 。 








陈强 “ 硅 格 半导体 市 场 总 监 


本 人 从 2008 年 起 加 入 固态 硬盘 行业 。 相 信 大 多 数 从 业者 跟 我 的 感觉 
一 样 :希望 能 够 系统 而 深入 地 学 习 固态 硬盘 技术 ， 但 国内 却 很 难 找到 一 
本 专业 书籍 。 本 书 对 固态 硬盘 工作 原理 、 接 口 形态 、 市 场 应 用 等 基础 知 
识 ， 以 及 控制 器 底层 的 各 种 算法 ， 都 进行 了 详尽 介绍 。 无 论 是 对 于 固态 
硬盘 行业 的 从 业者 、 技 术 开 发 者 、 市 场 人 员 ， 还 是 对 于 投资 人 、 终 端 用 
户 ， 本 书 都 是 不 可 或 缺 的 学 习 和 参考 经 典 。 











一 一 楚 一 兵 ”深圳 市 瑞 耐 斯 技术 有 限 公司 CEO 


固态 存储 无 颖 已 成 为 主流 ， 从 移动 装置 到 云 ， 都 已 全 面 应 用 。 本 书 
从 固态 硬盘 的 发 展 史 到 技术 应 用 ， 痢 进行 了 专业 剖析 和 详细 说 明 ， 让 读 
en 
) 籍 。 


— 段 喜 亭 “ 慧 荣 科技 市 场 营销 暨 OEM 事 业 资 深 副 总 





存储 领域 的 中 文 技术 书籍 一 直 比 较 苇 乏 ， 关 于 SSD 固 态 存 储 的 书籍 
更 是 如 此 。 听 说 这 本 书 汇 集 了 SSDFans 五 位 运营 者 一 年 的 努力 ， 深 感 不 
易 。 再 看 目录 也 是 大 而 全 ， 从 底层 到 应 用 ， 从 NAND 介 质 到 闪存 系统 ， 
从 知识 普及 到 深入 的 技术 细节 ， 全 都 有 深入 剖析 。 无 论 是 SSD 相 关 从 业 
者 ， 还 是 技术 爱好 者 ， 这 部 全 面 而 系统 的 车 作 都 值得 大 家 学 习 、 人 参考 。 


一 一 黄 完 《企业 存储 技术 》 微 信 公 众 号 作者 


作为 硬件 领域 最 重要 的 革命 之 一 一 一 内 存 半 命 正在 深刻 地 改变 着 IT 
的 基础 架构 ， 并 改变 看 人们 获取 信息 的 方式 。 理 解 内 存 区 别 于 磁性 介质 




















的 特点 和 SSD 不 同 于 HDD 的 “ 怪 脾 气 ”， 对 于 高 效 存 储 架 构 设 计 极 为 关 
键 。 这 本 书 带 我 们 近 距 离 观察 SSD 在 最 近 十 多 年 的 发 展演 进 ， 并 结合 闪 
存 的 特点 把 通信 、 计 算 机 等 技术 贯穿 起 来 ， 实 现 一 个 接近 理想 的 、 高 效 
的 和 可 靠 的 存储 架构 。 
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推荐 序 一 

信息 存储 记录 历史 、 传 承 文明 ， 是 人 类 社会 延续 和 发 展 不 可 或 缺 的 
重要 手段 。 一 个 时 代 有 多 种 存储 介质 ， 但 总 有 一 种 存储 介质 是 主流 介 
质 。 古 埃及 人 用 的 落 草 纸 、 早 期 欧洲 人 用 的 羊皮 纸 、 中 国人 用 的 竹简 以 
及 后 来 的 纸张 ， 都 曾 作为 主流 介质 被 广泛 使 用 。 进 入 数字 时 代 ， 以 硬盘 
为 核心 的 磁 记 录 介 质 一 直 是 非 易 失 性 存储 的 主流 介质 。 然 而 ， 由 于 闪存 
(Flash Memory) 技术 的 迅猛 发 展 ， 这 种 局 面 即将 发 生 重大 转变 。 内 存 
介质 在 各 类 存储 卡 、 固 态 硬盘 和 全 闪存 阵列 中 大 量 应 用 ， 不 论 在 终端 还 
是 在 云端 ， 闪 存 已 无 处 不 在 。 闪 存 介 质 中 存储 的 人 类 社会 信息 总 量 将 在 
不 久 的 将 来 超过 磁 记 录 介 质 ， 成 为 数字 时 代 新 的 主流 存储 介质 。 


固态 硬盘 (Solid State Disk, SSD) 是 以 闪存 介质 为 主 的 一 种 极为 
重要 的 存储 产品 ， 它 广泛 应 用 于 移动 终端 、 笔 记 本 电脑 、 台 式 机 、 服 务 
器 和 数据 中 心 等 场合 ， 需 求 量 极 大 。 与 传统 的 机 械 硬 盘 相 比 ， 固 态 硬 盘 
的 性 能 优势 特别 突出 。 由 于 取消 了 机 械 部 件 ， 旋 转 和 寻 道 的 延迟 完全 消 
除 ， 固 态 硬盘 在 读 写 速度 上 远 优 于 机 械 人 硬盘， 特别 是 在 大 吞吐 率 的 随机 
读 写 性 能 上 有 了 几 个 数量 级 的 提高 ， 在 性 能 要 求 高 的 应 用 场合 已 成 为 首 
选 。 与 机 械 硬 盘 相 比 ， 固 态 硬 盘 的 容量 和 价格 兽 是 其 成 为 主流 的 障碍 。 
但 随 着 闪存 芯片 容量 的 迅速 增加 和 成 本 的 快速 下 降 ， 固 态 硬 盘 的 最 大 容 
量 已 超过 机 械 硬 盘 ， 单 位 容量 价格 也 日 益 趋 近 高 性 能 机 械 人 硬盘 的 价格 ， 
并 将 在 未 来 的 几 年 之 中 与 之 持平 ， 之 后 将 逐步 取代 大 容量 机 械 人 硬盘 。 


对 固态 硬盘 这 样 一 种 量 大 面 广 的 重要 存储 设备 ， 无 论 是 其 设计 者 、 

生产 者 还 是 应 用 者 ， 都 迫切 希望 对 其 工作 原理 和 关键 技术 有 一 个 全 面 的 

了 解 。 然 而 ， 目 前 关于 固态 硬盘 的 各 种 知识 和 资料 散落 于 各 类 学 术 论文 

和 网 上 的 技术 介绍 ， 市 面 上 系统 介绍 固态 硬盘 技术 的 书籍 并 不 多 见 。 本 

市 的 出 版 恰 关 其 时 ， 满 足 了 广大 读者 的 需求 ， 是 一 本 全 面 介绍 加 三 
ME TM 


[5] zs i — BECHHNANDDALGGoSS Hr TEZJ3EAAZB E, SEDIS FERRE 
的 透彻 了 解 是 理解 固态 硬盘 工作 原理 的 基础 。NAND 闪 存 用 电荷 存储 信 
息 ， 其 重要 特点 是 先 擦 后 写 ， 擦 写 寿命 有 限 。 随 着 密度 提高 ， 引 起 了 单 
元 电 蓓 数 的 减少 及 绝缘 层 变 注 ， 从 而 使 得 NAND 内 存 的 原始 误 码 率 不 断 
提高 ， 可 擦 写 次 数 也 越 来 越 差 ， 最 新 的 大 容量 蕊 片 擦 写 寿命 不 到 1 干 
次 。 用 这 样 一 种 高 误 码 率 、 短 寿命 的 芯片 来 构成 长 寿命 、 高 性 能 、 高 可 





























靠 的 固态 便 盘 ， 需 要 发 展 一 系列 系统 层面 的 技术 ， 如 地 址 映射 、 磨 损 均 
衡 、 垃 圾 回收 、 坏 块 管理 等 ， 还 需要 发 展 新 的 纠 错 编 码 理论 、 算 法 和 实 
现 扩 术 来 保证 数据 的 正确 性 和 可 靠 性 。 为 了 能 与 主机 进行 高 性 能 连接 与 
通信 ， 需 要 发 展 与 固态 介质 相 适 应 的 高 速 接 口 和 通信 协议 。 上 述 系统 层 
面 的 技术 不 仅 需要 特别 设计 的 硬件 控制 器 来 实现 ， 还 需要 底层 固件 的 文 
持 。 固 态 便 盘 品 质 的 优 劣 ， 不 仅 反 映 在 初期 使 用 的 性 能 上 ， 还 反映 在 大 
负载 长 期 使 用 后 性 能 和 可 靠 性 的 保持 能 力 上 ， 故 需要 发 展 与 固态 人 硬盘 相 
适应 的 评测 技术 。 上 述 内 容 剖 是 因 固 态 便 盘 的 出 现 而 发 展 出 来 的 新 技术 
和 新 知识 ， 本 书 以 一 种 深入 浅 出 的 风格 系统 地 阐述 了 这 些 内 容 。 


值得 特别 指出 的 是 ， 本 书 作者 不 仅 是 在 第 一 线 从 事 固态 硬盘 设计 、 
有 着 深厚 专业 知识 的 资深 工程 师 ， 还 是 一 群 热 衷 于 普及 固态 硬盘 知识 的 
写作 高 手 。 他 们 创立 了 SSDFans 微 信和 群 和 微 信 公 众 号 ， 发 表 了 大 量 关 于 
固态 硬盘 撤 术 和 市 场 的 文章 ， 尤 其 在 技术 内 容 的 前 述 上 形成 了 深入 浅 
出 、 通 俗 幽 于 的 写作 风格 ， 读 来 使 人 兴趣 呈 然 。 我 就 经 常 进入 这 个 微 信 
群 阅读 那些 十 分 有 趣 的 短文 ， 获 得 了 不 少 新 的 技术 知识 和 市 场 信息 。 本 
de 
FX MPa 到。 


我 国 在 磁 记 录 介 质 时 代 错 失 了 大 力 发 展 硬盘 产业 的 机 会 ， 从 而 导致 
使 用 数量 十 分 惊人 的 硬盘 全 部 依赖 进口 。 除 了 花费 巨 量 外 汇 之 外 ， 信 息 
安全 也 存在 着 问 题 。 我 国 已 意识 到 信息 存储 产业 的 极端 重要 性 ， 大 力 发 
展 内 存 产业 已 成 为 国家 意志 。 我 国 已 投入 巨 资 建立 3D 内 存心 片 制造 基 
地 ， 有 望 解决 基础 器 件 的 问题 。 为 了 使 我 国 成 为 内 存 时 代 国 际 舞 合 上 的 
主角 ， 建 立 包 括 芯片 颗粒 、 控 制 器 、 固 态 硬盘 和 盘 阵 等 环节 的 全 产业 链 
十 分 必要 。 固 态 人 硬盘 不 仪 是 量 大 面 广 的 产品 ， 也 是 连接 内 存 上 下 游 产 业 
最 重要 的 一 环 。 相 信 本 书 的 出 版 能 推动 固态 硬盘 技术 知识 的 普及 ， 促 进 
我 国 固 态 便 盘 产业 发 展 和 应 用 ， 并 在 人 才 培 养 方面 发 挥 积 极 作 用 。 


闪存 成 为 主流 存储 介质 的 时 代 来 临 ， 国 际 舞 台 将 精彩 纷呈 ， 中 国 一 
定 不 能 缺席 。 
































WKE ”教授 
华中 科技 大 学 武汉 光电 国家 研究 中 心 
言 恩 存 储 系统 教育 部 重点 实验 室 





推荐 序 二 


作为 《大 话 存储 《终极 版 ) 》 以 及 《大 话 存 储 《〈 后 传 ) 》 的 作者 ， 
我 有 泣 经 历 了 国内 存储 行业 发 展 的 启蒙 和 易 盛 时 代 。 在 2005 年 到 2013 年 
这 8 年 间 ， 存 储 市 场 基本 就 是 SAN 的 市 场 ， 谈 存储 必 暗 指 SAN。 但 是 从 
2014 年 往 后 ， 存 储 行业 突然 发 生 巨大 变化 ， 分 布 式 系统 和 固态 存储 介质 
开始 呈 爆 发 式 增长 。 今 天 ， 谈 存储 如 果 不 谈 一 谈 配 以 固态 硬盘 的 分 布 式 
系统 ， 就 仿佛 是 上 个 时 代 的 人 了 。 


分 布 式 系统 的 发 展 有 三 个 技术 条 件 ， 高速 网 络 、 大 容量 人 硬盘、 固态 
介质 。 这 三 者 彻底 解放 了 分 布 式 系统 的 生产 力 。 通 俗 一 点 说 也 就 是 :网 
络 快 了 、 盘 容量 大 了 、 盘 速度 快 了 。 高 速 网 络 是 分 布 式 系统 赖 以 生存 的 
根本 ， 分 布 式 存储 系统 早 在 20 世 纪 中 后 期 就 已 经 形成 了 理论 基础 ， 但 是 
一 直到 近 几 年 ， 网 络 的 时 延 和 带宽 才 足 以 文 撑 分 布 式 系统 架构 。 为 了 降 
低 成 本 ， 业 界 兴 起 所 谓 软 件 定 义 ， 也 就 是 利用 廉价 白 牌 机 或 者 标准 的 机 
架 服务 器 ， 加 上 分 布 式 存 储 软件 管理 屋 ， 搭 建 出 软件 定义 分 布 式 存储 系 
统 ， 与 传统 的 SAN 存 储 系统 瓜分 市 场 。 而 分 布 式 系统 的 大 行 其 道 ， 极 大 
地 促进 了 固态 存储 的 需求 量 ， 因 为 出 于 成 本 考量 ， 分 布 式 系统 中 每 个 节 
点 往往 不 会 连接 多 级 J 了 了 OD 从 而 靠 大 量 的 硬盘 形成 高 并 发 性 能 ， 而 是 只 
靠 每 个 服务 器 自 带 的 少量 盘 位 ， 加 上 固态 盘 来 抵消 蜂 网 络 通信 带 来 的 时 
延 增加 ， 形 成 让 传统 机 械 盘 系统 望尘莫及 的 IOPS 和 时 延性 能 。 


可 以 说 ， 固 态 存储 对 系统 架构 和 存储 市 场 都 有 着 颠 履 性 的 影响 。 构 
建 在 大 量 机 械 硬盘 基础 之 上 的 传统 SAN 存 储 架 构 不 得 不 为 固态 存储 重新 
定制 ， 而 固态 存储 让 整个 存储 系统 架构 变 得 更 加 简单 ， 这 样 SAN 存 储 的 
门槛 更 低 了 ， 从 而 失去 了 核心 竞争 力 。 目 前 采用 传统 SAN 存 储 架 构 的 存 
储 系 统 相 比 新 兴 存 储 系统 ， 唯 一 一 个 不 可 撼动 的 优势 就 是 其 高 可 靠 性 ， 
体现 在 两 方面 : 一 是 便 件 部 件 双 元 余 设 计 ; 二 是 在 便 和 可、HBA 卡 可 靠 性 
方面 长 期 积累 的 经 验 。 


固态 存储 近年 来 在 国内 的 发 展 势头 迅猛， 造就 了 众多 本 土 的 、 目 主 
研发 的 、 与 内 存 相 关 的 企业 ， 其 中 有 些 为 SSD 整 盘 提 供 商 ， 有 些 为 目 主 
研发 SSD 主 控 的 企业 ， 有 些 为 盘 和 主 控 兼 有 的 企业 。 长 期 以 来 ， 机 械 硬 
盘 的 核心 技术 被 少数 几 家 企业 掌控 ， 门 槛 极 高 。 而 固态 存储 的 入 门 门槛 
极 大 降低 ， 在 研发 NAND 主 控 方 面 ， 相 比 于 机 械 硬 盘 ， 无 论 是 在 技术 储 
备 、 技 术 实现 上 ， 还 是 在 人 员 、 物 料 成 本 上 ， 都 变 得 可 以 接受 。 然 而 ， 





























这 并 不 意味 着 NAND 闪 存 及 其 控制 器 、 固 件 等 一 整套 系统 可 以 被 轻易 轰 
驭 。 内 存 技术 领域 包含 很 多 的 复杂 概念 及 复杂 算法 ， 比 如 
SLC/MLC/TLC/QLC. 3D NAND、 人 快慢 页 、 上 下 页 、 局 部 /全 局 磨损 均 
衡 、 控 1 写 0、 垃 圾 回收 、Device/Host Based FTL、 元 数据 保护 机 制 、 页 
面 映射 、NVMe、PCIE/SATA/SAS、SPDK/DPDK、RDMA、NVMe 
Over Fabric、LDPC/BCH 等 ， 这 些 概念 相 比 传统 存储 系统 更 加 接近 底层 
和 也 更 加 精细 ， 需 要 更 高 的 学 习 成 本 。 


业界 迫切 需要 一 本 全 面 阐述 、 梳 理 固态 存储 底层 技术 的 图 书 。 本 书 
的 面世 ， 可 谓 是 雪中送炭 ， 其 及 时 满足 了 广大 固态 存储 行业 从 业者 学 习 
了 解 固态 存储 相关 知识 的 需求 。 


SSDFans 团 队 由 知名 闪存 控制 器 厂商 的 工程 师 组 成 ， 维 护 着 
SSDFans 微 信 公 众 号 ， 以 较 高 频率 发 布 与 各 类 固态 存储 相关 的 技术 或 市 
场 类 文章 。 我 也 是 SSDFans 的 粉丝 之 一 ， 从 SSDFans 的 文章 中 学 到 不 少 
知识 。 写 书 不 易 ， 写 出 一 本 符合 人 脑 认 知 原 生态 思维 路 径 的 书 更 不 易 。 
作为 人 全面、 系统、 深度 介绍 固态 存储 技术 、 产 品 的 书籍 ， 本 书 语 言 通 俗 
易 懂 ， 脉 络 清晰 。 本 书 不 仅 可 以 作为 固态 存储 行业 的 入 门 书 ， 也 可 以 作 
为 广大 固态 存储 行业 从 业者 常备 的 参考 书 。 对 于 已 经 非常 资深 的 固态 存 
er x 也 是 开卷 有 益 ， 因 为 通过 本 书 他 们 可 碍 漏 补 缺 ， 重 新 
LE EHE o 


我 强烈 推荐 本 书 ! 























为 什么 要 写 这 本 书 
这 是 一 个 真正 的 数据 大 爆炸 时 代 ， 看 得 见 ， 摸 得 大。 


我 们 每 天 都 在 生产 数据 :发 朋友 图、 发 微 博 、 上 传 图 片 和 视频 到 社 
交 网 站 、 备 份 数据 到 网 盘 等 。 我 们 的 这 些 数据 ， 不 是 存储 在 虚无 绿 绾 的 
云端 ， 而 是 存储 在 云 服务 器 上 。 云 服务 器 的 核心 就 是 存储 介质 。 无 论 是 
云端 存储 ， 还 是 本 地 存储 ， 有 数据 的 地 方 就 有 存储 介质 。 


传统 数据 存储 介质 有 了 磁带、 光盘 等 ， 但 更 多 的 是 人 硬盘 CHDDO . Bü 
着 数据 呈 爆 炸 式 增长 ， 对 数据 存储 介质 在 速度 上、 容量 上 有 更 高 的 要 
求 。 时 势 造 英雄 ， 固 态 硬 盘 (Solid State Disk, SSD) 横 空 出 世 。SSD 使 
用 电子 芯片 存储 数据 ， 没 有 HDD 的 机 械 式 部 件 ， 因 此 在 速度 、 时 延 、 功 
耗 、 抗 震 等 方面 ， 与 HDD 相 比 有 碾 压 式 优势 。 无 论 是 个 人 存储 ， 还 是 企 
业 存 储 ， 都 在 逐渐 用 SSD 取 代 HDD。 大 数据 时 代 ，SSD 必 将 是 主角 。 


HDD 时 代 我 们 错过 了 ; SSD 时 代 ， 我 们 迎 来 了 村 道 超车 的 好 机 会 。 
国内 很 多 企业 都 希望 抓 住 这 个 机 遇 ， 上 所 以 他 们 研 有 发、 制造 SSD， 并 且 取 
得 了 不 错 的 成 绩 ， 己 经 有 了 能 自主 研发 SSD 及 SSD 控 制 器 的 公司 。 国 家 
Ru neve 长 江 存储 的 成 立 昭 示 了 国家 对 固态 存储 这 块 
xx. Hz 心 。 


国内 SSD 领 域 的 从 业 人 员 ， 以 及 日 常 使 用 SSD 的 人 越 来 越 多 ， 但 是 
市 面 上 专门 介绍 SSD 技 术 的 中 文书 籍 少 之 又 少 。 作 为 国内 领先 的 SSD 技 
2e INN 责任 、 有 义务 ， 也 有 动力 推出 一 本 中 文 版 SSD 技 
书籍 。 


我 们 几 位 作者 ， 都 工作 在 SSD 的 最 前 线 ， 是 工程 师 出 身 ， 虽 文笔 一 
般 但 是 热情 十 足 ， 愿 意 分 享 对 技术 的 理解 。 和 希望 这 块 砖 头 能 够 帮助 您 禹 
开 SSD 的 大 门 ， 如 果 能 够 解决 您 的 一 些 实际 问题 ， 或 者 引发 您 的 一 些 思 
Z, REEERE. 


最 后 ， 欢 迎 您 通过 网 站 Chttp://www.ssdfans.com ) 、 微 信 公 众 号 
(SSDFans) 来 进一步 了 解 我 们 ， 与 我 们 做 进一步 的 交流 。 

















读者 对 象 


计算 机 、 电 子 相关 专业 的 在 校本 科 生 ， 存 储 方向 的 研究 生 : 通过 
阅读 本 书 ， 能 够 更 好 地 将 所 学 的 理论 与 业界 实践 结合 ， 对 相关 知识 有 更 
加 深刻 的 理解 ， 为 未 来 加 入 企业 打 好 坚实 的 基础 。 


“SSD 研 发 企业 的 员工 : 通过 阅读 本 书 ， 可 以 全 面 学 习 与 SSD 相 关 的 
硬件、 协议 、 固 件 以 及 测试 等 各 方面 的 基础 知识 ， 提 升 整体 认 知 ， 上 有 具备 
完整 、 系 统 的 理论 知识 。 

企业 IT 运 维 人 员 : 通过 阅读 本 书 ， 可 以 充分 了 解 SSD 的 优 务 之 处 及 
其 适用 的 工作 场景 ， 为 公司 的 开 部 著 过 程 提 供 技 术 文 持 ， 实 现 整体 运营 
成 本 的 最 优 配 置 。 


-广大 的 DIY、 游 戏 爱 好 者 : 通过 阅读 本 书 ， 可 以 学 会 如 何 选 择 最 适 
合 上 自己 的 SSD， 以 合理 投入 获得 更 好 的 娱乐 体验 。 


“对 SSD 产 业 感 兴趣 的 投资 人 : 通过 阅读 本 书 ， 可 以 全 面 了 解 SSD 产 
业 的 现状 ， 和 擎 握 基 本 的 技术 术语 ， 以 便 更 好 地 与 企业 沟通 。 


.其 他 对 SSD 知 识 感 兴趣 的 人 。 
本 书 特色 

本 书 的 作者 团队 都 在 业内 知名 公司 任职 ， 有 具备 丰富 的 理论 和 实践 知 
RR 
新 速度 。 


在 撰写 本 书 的 过 程 中 ， 作 者 们 能 够 对 技术 原理 做 深入 浅 出 的 阐述 ， 
并 结合 自身 工作 经 验 给 出 意见 。 

















本 书 主要 内 容 


本 书 的 内 容 几 乎 禾 盖 了 SSD 各 个 模块 ， 既 可 以 作为 一 本 入 门 书籍 进 
行 通读 ， 也 可 以 在 需要 的 时 候 作 为 工具 书 进行 查阅 。 





KEKA: SSD 基 础 知识 、SSD 各 模块 介绍 及 SSD 测 试 相 关内 
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SSD 基 础 知识 包括 : SSD 与 HDD 的 比较 、SSD 的 发 展 历史 、 产 品 形 
、 整 体 架 构 和 基本 工作 原理 。 


模块 介绍 包括 : 


FTL 闪存 转换 层 : 作为 SSD 固 件 的 核心 部 分 ，FTL 实 现 了 例如 映射 
管理 、 磨 损 均 衡 、 垃 圾 回收 、 坏 块 管理 等 诸多 功能 ， 本 书 将 一 一 介绍 。 


.NAND Flash: NAND Flash 作 为 SSD 的 存储 介质 ， 具 有 很 多 与 传统 
磁 介 质 不 同 的 特性 ， 本 书 将 从 器 件 原理 、 实 战 指 南 、 闪 存 特 性 及 数据 完 
整 性 等 方面 展开 。 


:NVMe 存 储 协议 : 作为 专门 为 SSD 开 发 的 软件 存储 协议 ，NVMe 正 
在 迅速 占领 SSD 市 场 。 本 书 将 从 其 优势 、 基 础 架构 、 寻 址 方式 、 数 据 安 
全 等 方面 展开 。 为 了 让 读者 对 NVMe 命 令 处 理 有 更 加 直观 的 认识 ， 本 书 
结合 实际 的 PCIe trace 进 行 曾 述 。 同 时 ， 本 书 也 介绍 了 NVMe Over Fabric 
的 相关 知识 ， 让 读者 能 够 对 未 来 网 络 与 存储 的 发 展 趋势 有 所 了 解 。 


:PCIe 协议 : PCIe 作 为 目前 主流 的 SSD 前 端 总 线 ， 与 之 前 的 SATA 接 
口 相 比 有 着 极 大 的 性 能 优势 。 本 书 将 从 PCIe 总 线 拓扑 结构 、 分 层 结构 、 
TLP 类 型 与 路 由 、 配 置 和 地 址 空间 等 方面 进行 介绍 。 


:电源 管理 : 本 书 详 述 了 SSD 前 端 总 线 (包括 SATA 和 PCIe) 的 各 种 
节能 模式 、NVMe 协 议 的 电源 管理 方案 及 在 SSD 里 常用 的 整体 电源 管理 


架构 Power Domain. 


ECC: 本 书 介绍 了 ECC 的 基本 概念 ， 重 点 介绍 了 LDPC 的 解码 和 编 
人 码 原理 ， 以 及 在 NAND 上 的 应 用 。 


SSD 测 试 的 内 容 包 括 : 本 书 详 述 了 御用 的 训 斌 软件、 测评 流程、 仪 
虱 设 备 、 业 界 认证 及 专业 的 测试 标准 等 。 


勘误 和 支持 


e 








由 于 作者 的 水 平 有 限 ， 再 加 上 时 间 人 仓促 ， 书 中 难免 会 出 现 一 些 错 误 
或 者 不 准确 的 地 方 ， 奶 请 读者 批评 指正 。 您 可 通过 我 们 的 网 站 
Chttp:/www.ssdfans.com ) 、 微 信 公 众 号 《或 微 博 ) SSDFans、 阿 采 的 
微 信 号 (nanoarchplus) 或 阿 采 的 邮箱 Cadam@ssdfas.com ) 随时 与 我 们 
进行 交流 。 


致谢 


借 此 机 会 特别 感谢 一 直 以 来 支持 SSDFans 的 各 位 朋友 〔〈 排 名 不 分 先 
后 ) AJ. B. FERE. Ayh Ium. Bi. vua. X 
X. Bei. dp (Brown) 等 。 


感谢 机 械 工 业 出 版 社 华章 公司 的 编辑 杨 福 川 和 和 孙 海 涡 ， 在 这 一 年 多 
的 时 间 中 他 们 始终 文 持 我 们 这 几 个 门外汉 ， 他 们 的 豆 励 和 帮助 引导 我 们 
顺利 完成 全 部 书 稳 。 


说 以 此 书 献 给 杀 爱 的 家 人 ， 以 及 众多 文 持 SSDFans 的 朋友 们 ! 





第 1 章 ”SSD 综 述 


SSD (Solid State Drive) ， 即 固态 便 答 ， 是 一 种 以 半导体 闪存 
(NAND Flash) 作为 介质 的 存储 设备 。 和 传统 机 械 硬 盘 〈Hard Disk 
Drive, HDD) 不 同 ，SSD 以 半导体 存储 数据 ， 用 纯 电 子 电路 实现 ， 没 
有 任何 机 械 设备 ， 这 就 决定 了 它 在 性 能 、 功 耗 、 可 靠 性 等 方面 和 HDD 有 
很 大 不 同 。 其 实 SSD 的 概念 很 早 就 有 ， 但 真正 成 为 主流 存储 应 用 还 是 最 
近 10 年 的 事情 。 在 2008 年 初 ， 那 时 候 只 有 很 少 的 几 家 公司 研发 SSD， 如 
今 (2018F) ， 已 有 上 百 家 大 小 的 公司 参与 其 中 。 无 论 是 在 消费 级 还 是 
企业 级 市 场 ，SSD 已 经 动 了 两 家 HDD 巨 无 霸 公 司 西数 CWD) 和希 
JE (Seagate) 的 根基 ， 正 在 取代 HDD 成 为 主流 的 存储 设备 。 


在 SSD 大 行 其 道 的 今天 ， 从 事 存储 行业 的 人 如 果 不 知 道 SSD， 夕 
如 “平生 不 见 陈 近 南 ， 就 称 英 雄 也 枉然 >。 本 章 将 带领 大 家 初 识 “ 陈 近 























1.4 引子 
先 从 开机 速度 说 起 。 


过 去 ， 电 脑 启动 一 般 需要 几 十 秒 甚至 一 分 钟 以 上 。 开 机 ， 出 去 倒 
R ER, BLEH. WS, H Y SSD, AIUREA H. 
开机 ， 正 起 吴 准 备 去 倒 茶 ， 开 机 助手 就 已 经 提示 你 : KARAFIL TN, 
算 了 ， 茶 还 是 不 倒 了 。SSD 开 机 时 间 统 计 如 图 1-1 
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开机 时 间 





0 E e 
单位 : FP SSD SSD+ 机 械 硬 盘 机 械 使 盘 
图 1-1 SSD 开 机 时 间 统 计 


速度 快 ， 是 用 户 在 使 用 SSD 过 程 中 最 为 直观 的 感受 。 那 是 什么 成 就 
了 SSD 的 神速 呢 ? 除了 速度 快 ， 相 比 HDD，SSD 还 有 什么 优点 呢 ? 这 就 
得 从 SSD 的 原理 说 起 了 。 


SSD 是 一 种 以 半导体 为 主要 存储 介质 、 外 形 和 数据 传输 接口 与 传统 
的 HDD 相 同 的 存储 产品 。 目 前 主流 SSD 使 用 一 种 叫 闪 存 的 存储 介质 ， 未 
来 随 着 存储 半导体 芯片 技术 的 发 展 ， 它 也 可 以 使 用 更 快 、 更 可 靠 、 更 省 
电 的 新 介质 ， 例 如 3D XPoint、MRAM 等 。 由 于 当前 业界 主要 使 用 的 还 
是 闪存 ， 所 以 本 书 讨论 还 是 以 内 存 为 主 。 


外 观 上 ， 加 上 铝 盒 的 2.5 寸 的 SSD， 和 2.5 寸 HDD 外 观 基本 相同 。 除 
了 有 传统 HDD 的 2.5 寸 和 3.5 寸 的 外 观 外 ，SSD 还 可 以 有 更 小 的 封装 和 尺 
寸 ， 图 1-2 所 示 为 M.2 接 口 的 SSD。 (关于 SSD 的 接口 形态 ， 后 续 有 详细 
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图 1-2 SSD/^/l (Æ: 2.5 寸 盘 ; 4: M.2SSD) 


SSD 是 用 固态 电子 存储 芯片 阵列 制 成 的 硬盘 ， 主 要 部 件 为 控制 器 和 
存储 芯片 ， 内 部 构造 十 分 简单 。 详 细 来 看 ，SSD 硬 件 包括 几 大 组 成 部 
分 : 主 控 、 闪 存 、 缓 存 芯 片 DRAM (可 选 ， 有 些 SSD 上 可 能 只 有 
SRAM， 并 没有 配置 DRAM) 、PCB (HtA. BIE BRE). È 
Hl (SATA、SAS、PCIe 等 ) ， 其 主体 就 是 一 块 PCB， 如 图 1-3 所 示 。 软 
件 角 度 ，SSD 内 部 运行 固件 (Firmware, FW) 负责 调度 数据 从 接口 端 
到 介质 端的 读 写 ， 还 包括 租 入 核心 的 闪存 介质 寿命 和 可 靠 性 管理 调度 算 
法 ， 以 及 其 他 一 些 SSD 内 部 算法 。SSD 控 制 器 、 闪 存 和 固件 是 SSD 的 三 
大 技术 核心 ， 后 面 章节 会 依次 深度 介绍 。 


IO 连接 全 


7m 


"nius di |j d z 


SSD 控制 各 


DRAM (可 选 ) 





图 1-3 SSD 结 构 
前 面 讲 了 当前 SSD 存 储 介 质 主要 是 闪存 ， 故 首先 讲 一 下 什么 是 存储 








介质 。 


存储 介质 按 物理 材料 的 不 同 可 分 为 三 大 类 : 光学 存储 介质 、 半 导体 
存储 介 质 和 磁性 存储 介 质 。 光 学 存储 介质 ， 就 是 大 家 之 前 部 使 用 过 的 
DVD、CD 等 光盘 介质 ， 靠 光驱 等 主机 读 取 或 写 久 、 在 SSD 出 现 之 前 ， 
个 人 和 企业 的 数据 存储 还 是 HDD 的 天 下 ， HDD 是 以 磁性 存储 介质 来 存 
储 数 据 的 ;， SSD 出 现 以 后 ， 采 取 的 是 半导体 芯片 作为 存储 介质 。 现 在 及 
未 来 技术 变革 最 快 和 主要 方向 还 是 半导体 存储 ， 从 图 1- 4 可 以 看 出 ， 半 
导体 存储 介质 五 花 八 门 ， 目 前 可 以 看 得 出 的 主要 方向 还 是 闪存 、3D 
XPoint、MRAM、RRAM 等 。 
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( DVD. CD ) 
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非 易 失 性 EPROM 
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新 型 介质 MRAM: 磁 阻 





RRAM: [HE 





磁性 存储 磁带 、 软 FRAM: 铁 电 





介质 f. HDD 


PCM: 相 变 
图 1-4 ”存储 介质 分 类 


当前 闪存 生产 供应 商 主 要 有 Micron (美光 ) 、Samsung (ZÆ) 、 
SK Hynix (WRZE) ~ Toshiba (东芝) 、WD&Sandisk〔 西 数 和 闪 
迪 ) ， 这 几 家 基本 上 垄断 了 闪存 市 场 ， 当 然 未 来 会 有 新 的 加 入 者 ， 给 
户 以 更 多 的 选择 。 














12 SSD vs HDD 


传统 的 HDD 是 “马达 + 磁头 + 磁盘 ”的 机 械 结构 ，SSD 则 变 成 了 “内 存 
介质 + 主 控 ” 的 半导体 存储 蕊 片 结构 ， 两 者 有 完全 不 同 的 数据 存储 介质 和 
Rus. 对 比如 表 1-1 所 示 。 


再 看 一 下 SSD 和 HDD 物 理 结构 的 不 同 ， 如 图 1-5 所 示 。 


表 1-1 HDD vs SSD 结 构 对 比 


读 取 写 入 
磁头 + 马达 ( 寻 址 ) 
SSD $E dil ds 





室 无 疑问 ，SSD 在 速度 上 可 以 秒杀 HDD， 无 论 在 用 户 感 观 体验 上 ， 
还 是 测试 数据 上 。 


表 1-2 所 示 是 某 两 款 SSD 和 HDD 的 对 比 ， | s Bk tg 
速度 有 从 几 倍 到 几 百 倍 的 差异 ， 随 机 读 写 性 能 〈 速 度 和 时 延 ) 差异 最 为 
明显 。 


DRAM ”控制 器 连接 六 





闪存 芯片 
连接 大 

图 1-5 SSD vs HDD 结 构 

表 1-2 HDD 与 SSD 性 能 对 比 


En 
js 
数据 访问 时 间 ns) x 100 — 120 


性 能 测试 工具 包括 连续 读 写 吞吐 量 (Throughput) 工具 和 随机 读 写 
IOPS 工 具 两 种 ， 包 括 但 不 限于 IoMeter、FIO 等 测试 工具 。 也 有 用 户 体 验 
的 性 能 测试 工具 一 一 PCMark Vantage， 它 以 应 用 运行 和 加 载 时 间作 为 考 
察 对 象 。 性 能 测试 项 一 般 都 是 影响 用 户 体 验 的 项 。 影响 用 户 体验 的 项 涉 
及 系统 启动 时 间 、 文 件 加 载 、 文 件 编辑 等 。 从 图 1-6 所 示 的 对 比 可 以 看 
HDD 的 得 分 在 SSD 面 前 显得 太 渺 小 ， 像 碰见 了 一 个 性 能 怪兽 ， 被 完 














PCMark Vantage 


加 载 应 用 
添加 音乐 
Windows 媒体 中 心 m 950 PRO 256 GB 
视频 编辑 SATA SSD A 240 GB 
ili SATA SSD B 256 GB 
Windows 启动 ZHDDi1TB 
STATT (从 上 至 下 ) 
游戏 


Windows defender 


0 500 1 000 1 500 000 2500 


2 
图 1-6 SSD vs HDD 性 能 得 分 
2. 功 耗 低 


TÁEZJSÉHDD7J6—8W, SATA SSD 为 5W， 待 机 功 耗 SSD 可 降低 到 
zb, (mW) 级 别 。 


关于 功 耗 ， 业 界定 义 有 几 类 : 峰值 功 耗 (Peak Power) 、 读 写 功 耗 
(Active Power) 、 空 闲 功 耗 (dle Power) 、 省 电 功 耗 (启动 SSD 内 部 
休眠 ， 尽 可 能 多 地 关 挥 不 工作 的 人 硬件 模块 ， 专 业 上 定义 为 Standby/Sleep 
Power 和 DevSleep Power， 本 书后 面 有 专门 章节 介绍 ) 。 特 别 是 DevSleep 
Power， 功 耗 可 降 到 10mW 以 下 ， 功 耗 极 低 ， 可 应 用 于 能 耗 要 求 茄 刻 的 
应 用 场景 ， 如 消费 级 笔记 本 休眠 状态 ， 此 种 场景 下 SSD 省 电 是 非常 重要 
的 。HDD 与 SSD 的 功 耗 对 比如 表 1-3 所 示 。 


表 1-3 HDD 与 SSD 功 耗 对 比 


从 SSD 功 耗 分 解 来 看 ， 读 写 功 耗 主 要 消耗 在 内 存 上 。 数 据 读 取 和 和 写 
入 并 发 在 后 端的 闪存， 闪存 的 单位 读 写 功 耗 是 决定 性 的 ， 如 16KB 闪 存 
页 (Page) 的 读 写 功 耗 决 定 了 主机 端 满 负荷 下 SSD 的 平均 读 写 功 耗 。 














其 次 影响 读 写 功 耗 的 是 主 控 功 耗 ， 其 约 占 功 耗 的 20%， 而 ASIC 主 控 
CPU 的 频率 和 个 数 、 后 端 通道 的 个 数 、 数 据 ECC 的 编码 器 /解码 器 的 个 数 
和 设计 等 因素 影响 了 主 控 整 体 的 功 耗 。 

科学 地 比较 功 耗 的 方法 应 该 是 powevIOPS， 也 就 是 比较 单位 IOPS 性 
能 上 的 功 耗 输 出 ， 该 值 越 低 越 好 。 由 于 SSD 极 高 的 性 能 ， 相 对 于 HDD 而 
言 ， 相 当 于 单位 功 耗 产生 出 了 百倍 的 性 能 ， 所 以 SSD 被 称 为 高 性 能 、 低 
功 耗 的 节能 产品 ， 符 合 数据 中 心 (Data Center) 的 使 用 定位 。 
3.9 8 D; PE 

SSD 内 部 不 存在 任何 机 械 部 件 ， 相 比 HDD 更 加 抗震 。 

HDD 是 机 械 式 结构 ， 磁 头 和 磁 片 之 间 发 生 跌 落 时 接触 碰撞 会 产生 物 
理 损坏 ， 无 法 复原 。SSD 是 电子 和 PCB 结 构 ，PCB 加 半导体 芯片 ， 跌 落 
时 不 存在 机 械 损 伤 问 题 ， 因 此 更 加 抗震 和 可 靠 。 

另外 SSD 对 环境 的 要 求 没 有 HDD 那 么 苛刻 ， 更 适合 作为 便携式 笔记 
本 、 平 板 电脑 的 存储 设备 。 从 可 靠 性 角度 来 看 ， 物 理 上 的 损伤 以 及 带 来 
数据 损坏 的 概率 ，SSD 比 HDD 更 低 。 

4. 无 噪声 

客观 上 ， 由 于 结构 上 没有 马达 的 高 速 运转 ，SSD 是 静音 的 。 
5. 身 形 小 巧 百 变 

HDD 一 般 只 有 3.5 寸 和 2.5 寸 两 种 形式 ，SSD 除 了 这 两 种 ， 还 有 更 小 
的 可 以 贴 放 在 主板 上 的 M.2 形 式 ， 甚 至 可 以 小 到 芯片 级 ， 例 如 BGA SSD 
的 大 小 只 有 16mmx30mm， 甚 至 可 做 得 更 小 。 


江波 龙 2017 年 8 月 发 布 了 目前 世界 上 最 小 尺寸 的 BGA 
SSD (11.5mmx13mm) 一 一 P900 系 列 。 


最 后 再 综合 对 比 一 下 SSD 和 HDD 的 具体 差异 ， 如 表 1-4 所 示 。 
表 1-4 HDD 与 SSD 对 比 和 矩阵 














比较 项 比较 项 HDD 
容量 v 

性 能 

可 靠 性 

寿命 

尺寸 V 
功 耗 

















看 来 ， 目 前 HDD 和 SSD 相 比 只 有 价格 优势 。 但 随 着 大 容量 闪存 的 出 
cr n queue 相信 不 久 的 将 来 ，HDD 的 价格 优势 也 会 
^ 子 仁 。 





13 固态 存储 及 SSD 技 术 发 展 史 


SSD 一 路 走 来 ， 从 技术 层面 的 发 展演 进 和 各 个 初创 公司 的 涌现 ， 到 
少数 壮大 ， 再 到 今天 汇聚 成 一 股 强大 的 力量 ， 推 动 SSD 的 普及 应 用 ， 可 
谓 不 易 。 回 顾 SSD 的 历史 ， 会 让 我 们 更 深刻 地 理解 这 场 技术 革命 对 人 类 
么 的 艰辛 和 曲折 ， 真 可 谓 “ 山 重水 复 疑 无 路 ， 柳 暗 花 明 
及 一 


早 在 1976 年 就 出 现 了 第 一 款 使 用 RAM 的 SSD，1983 年 Psion 公 司 的 
计算 器 使 用 了 闪存 存储 卡 ，1991 年 SanDisk 推 出 了 20MB 的 闪存 SSD。 经 
过 成 千 上 万 科学 家 、 工 程 师 以 及 各 行 各 业 的 人 40 来 年 的 努力 ，SSD 终 于 
改变 了 我 们 的 生活 。 下 面 我 们 来 回顾 一 下 SSD 的 逆 柳 之 路 。 


StorageSearch 是 一 家 专门 讲述 各 大 固态 存储 公司 产品 的 网 站 ， 本 市 
中 SSD 发 展 史 大 部 分 内 容 来 自 于 该 网 站 的 一 篇 文 


章 : http;//www.storagesearch.com/chartingtheriseofssds.html 。 





1. 昂 贵 的 RAM SSD 时 代 


我 们 都 知道 芯片 巨 头 Intel 现 在 最 赚钱 的 产品 是 CPU， 但 是 在 20 世 纪 
70 年 代 ，Intel] 最 赚钱 的 产品 是 RAM， 就 是 我 们 电脑 内 存 条 里 面 的 忌 片 。 
当 RAM 刚 和 被 发 明 的 时 候 ， 就 有 一 些 脑子 灵活 的 人 开始 用 很 多 RAM 组 凌 
成 容量 很 大 的 硬盘 来 卖 。 


据 史 料 记 载 ，1976 年 ，Dataram 公 司 开 始 出 售 叫 作 Bulk Core 的 
SSD， 容 量 是 2MB 〈 在 当时 很 大 了 ) ， 使 用 了 8 块 大 电路 板 ， FNT 
4187 256KBÜJRAM “细心 的 读者 肯定 在 想 2MB 是 怎么 算出 来 的 ， 
实 很 简单 ， 好 好 想 想 吧 ) 。 这 款 SSD 是 个 大 块头 ， 有 具体 外 观 如 图 1- 7s 
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图 1-7 Bulk Core SSD 


RAM 的 优点 是 可 以 随机 寻 址 ， 就 是 每 次 可 以 只 该 写 一 个 字 节 的 数 
据 ， 速 度 很 快 ， 缺 点 也 很 明显 ， 掉 电 数 据 就 没 了 ， 价 格 还 巨 贯 。 其 注定 
是 土 坚 的 玩具 ， 不 能 进入 寻常 百姓 家 。 


在 以 后 的 20 多 年 时 间 里 ，TMS (Texas Memory Systems) 、EMC、 
DEC 等 玩家 不 断 推 出 各 种 RAM SSD， 在 这 个 小 众 的 市 场 里 自 娱 自 乐 。 
不 过 特别 强调 一 下 ， 最 主要 的 玩家 是 TMS。 


2. 机 械 硬 盘 CHDDO 称霸 世界 


当 SSD 还 在 富豪 的 俱乐部 里 被 把 玩 的 时 候 ，HDD 却 异军突起 ， 迅 速 
普及 全 世界 。HDD 本 来 也 很 昂 吐 ， 而 且 容 量 小 ， 但 是 1988 年 费 尔 和 格林 
贝 格 尔 发 现 了 巨 磁 阻 效应 ， 这 个 革命 性 的 技术 使 得 HDD 容 量变 得 很 大 ， 
在 各 大 企业 的 推广 下 ，HDD 进 入 千家 万 户 。 他 们 俩 也 因此 获得 了 2007 年 
诺 贝 尔 物理 学 奖 。 


2013 年 全 球 卖 出 了 5.7 亿 块 HDD， 市 场 为 320 亿 美金 。 但 是 ，HDD 已 
经 过 了 最 易 盛 的 时 代 。 图 1-8 所 示 是 根据 希捷 、 西 部 数据 和 东芝 的 出 货 
量 做 出 的 全 球 HDD 销 量 统计 ， 可 以 看 出 ， 从 2010 年 开始 ，HDD 出 货 量 
一 直 在 下 滑 (2014 年 有 小 的 反弹 )。 
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图 1-8 全球 机 械 人 硬盘 销量 变化 
3. 闪 存 一 一 源 于 华人 科学 家 的 发 明 


1967 年 ， 贝 尔 实验 室 的 韩 裔 科学 家 雪 大 元 和 华裔 科学 家 施 敏 一 起 发 
明了 浮 栅 晶体 管 CFloating Gate Transistor) ， 这 是 现在 SSD 基 础 一 一 闪 
存 的 技术 来 源 。 学 过 MOS 省 的 同学 肯定 对 图 1-9 很 熟悉 ， 相 比 MOSFET 
就 多 了 个 Floating Gate， 巷 浮 在 中 间 ， 所 以 叫 浮 栅 。 它 被 高 阻抗 的 材料 
2c TI ERRARE. BRT EH, I Ea X IE E T AEEA TE 
n. 


施 第 :1936 年 生 于 南京 ， 毕 业 于 台湾 大 学 ， 在 斯 坦 福 大 学 获得 博士 
学 位 ， 是 著名 的 物理 学 家 ， 现 于 台湾 的 交通 大 学 任教 。 期 每 SSD 的 普及 
能 让 他 获得 话 贝尔 奖 。 
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图 1-9 浮 栅 晶体 管 结构 
4. 闪 存 SSD 异 军 突起 


20 志 纪 90 年 代 末 ， 终 于 有 一 些 厂 了 阐 开 始 和 尝试 使 用 内 存 制 造 SSD， 进 
行 艰难 的 市 场 探 索 。1997 年 ，Altec Computer Systeme 推 出 了 一 款 并 行 
SCSI 闪 存 SSD， 接 着 1999 年 BiTMICRO 推 出 了 18GB 的 闪存 SSD， 从 此 ， 
闪存 SSD 逐 渐 取 代 RAM SSD， 成 为 SSD 市 场 的 主流 。 闪 存 的 特点 是 掉 电 
后 数据 还 在 ， 真 的 像 我 们 所 知 的 硬盘 了 。 

新 技术 的 应 用 是 如 此 之 快 ， 引 起 了 科技 巨头 的 关注 。2002 年 比尔 ， 
盖 茨 就 预见 到 了 SSD 的 普及 ， 他 保守 地 说 ， 有 一 种 叫 SSD 的 东西 ， 未 来 
三 四 年 内 将 会 成 为 某 些 平板 电脑 的 人 硬盘。 可惜 的 是 微软 那 时 候 没 有 成 功 
推广 平板 电脑 。 


从 2003 年 开始 ，SSD 的 时 代 终 于 到 来 ，SSD 开 始 成 为 存储 行业 的 一 
个 热 词 ， 固 态 硬盘 的 概念 开始 为 许多 人 所 知晓 。 


2005 年 5 月 ， 三 星 电子 宣布 进入 SSD 市 场 ， 这 是 第 一 家 进入 这 个 市 
场 的 科技 巨头 。 


5.2006 年 ，SSD 进 入 笔记 本 
2006 年 ，NextCom 制 造 的 笔记 本 开始 使 用 SSD。 三 星 推出 了 32GB 的 


SSD， 并 认为 2007 年 SSD 市 场 容量 可 达 13 亿 美金 ，2010 年 将 达到 45 亿 美 
金 。9 月 ， 三 星 推 出 了 PRAM SSD， 这 另 一 种 SSD 技 术 ， 其 采用 了 PRAM 
作为 载体 ， 三 星 希望 能 取代 NOR 内 存 。 


同年 11 月 ， 微 软 的 Windows Vista 来 到 了 市 场 上 ， 这 是 第 一 款 支持 
SSD 特 殊 功 能 的 PC 操作 系统 。 


6.2007， 革 命 之 年 


2007 年 ，Mtron 和 Memoright 公 司 开发 了 2.5 寸 和 3.5 寸 的 闪存 SSD， 
读 写 带宽 和 随机 IOPS 性 能 终于 达到 了 最 快 的 企业 级 HDD 水 平 ， 同 时 闪 
存 SSD 开 始 在 某 些 领域 奉 代 原来 的 RAM SSD。 硬 盘 大 战 的 序幕 从 此 拉 
Ha 


2 月 份 ，Mtron 推 出 的 PATA SSD 写 速度 为 80MB/s， 但 是 仅仅 8 个 月 
后 ，Memoright 的 PATA 和 SATA SSD 成 为 速度 最 快 的 一 一 100MB/s 的 读 
写 速 度 。 











企业 级 市 场 玩家 Violin Memory 和 Texas Memory Systems 也 推出 了 大 
型 SSD。TMS 的 RamSan-500 容 量 达 2TB，DDR RAM 作 为 缓存 ， 闪 存 作 
为 存储 。 随 机 读 IOPS 100k， 随 机 写 10k， 顺 序 读 写 带宽 达到 了 惊人 的 
2GB/s! 来 看 看 这 个 大 家 伙 〈 见 图 1-10) 。 





图 1-10 大 型 SSD 


闪存 厂商 SanDisk、Micron 也 推出 了 一 系列 的 SATA SSD, Toshiba 
宣布 要 做 SSD。 年 底 的 时 候 ， 市 场 上 有 60 家 SSD OEM) Ti. 


7.2008 年 ， 速 度 大 战 爆 发 
2008 年 ，SSD 厂 商 迅 速达 到 了 100 家 ， 就 是 说 一 年 内 新 冒 出 了 40 家 


新 的 SSD 厂 商 。 这 一 年 使 用 的 闪存 还 是 SLC。SLC 虽 然 容量 小 、 价 格 
高 ， 但 是 挡 不 住 大 家 的 热情 ，IOPS 不 断 被 打破 。 


EMC 再 次 推出 了 使 用 SSD 的 网 络 存储 系统 Symmetrix DMX-4， 上 一 
次 使 用 SSD 是 在 20 年 前 ， 不 过 那 时 候 是 RAM SSD。 三 星 想 要 收购 
SanDisk， 翡 剧 的 是 被 拒绝 了 ， 还 好 Sandisk 的 股东 脑子 清醒 ， 因 为 现在 
Sandisk 已 经 是 一 家 市 值 百 亿美 金 的 巨头 〈2015 年 SanDisk 以 190 亿 美元 价 
格 被 西数 收购 ) 。Violin Memory 甚 至 宣布 他 们 的 4TB 1010Memory 
Appliance 可 以 达到 4KB 随 机 读 融 宽 200k， 随 机 写 100k IOPS， 文 持 
PCIe、Fibre Channel 和 以 太 网 接口 。Fusion-IO 的 SSD 开 始 为 HP 的 
BladeSystem 服 务 器 提供 加 速 功能 。 


著名 的 OCZ 公 司 开始 进入 2.5 寸 SSD 市 场 。Intel 开 始 出 售 X-25E 2.5 寸 
32GB SATA SSD， 读 延迟 75hs，10 个 通道 ， 读 写 带宽 分 别 是 
250/170MB/s。4KB 随 机 读 写 带宽 35k IOPS 和 3.3k IOPS 。 








8.2009 年 ，SSD 的 容量 赶 上 了 HDD 


PureSilicon 公 司 的 2.5 寸 SSD 做 到 了 1TB 容 量 ， 由 128 片 64Gb 的 MLC 
闪存 组 成 。SSD 终 于 在 同样 的 空间 内 ， 实 现 了 和 HDD 一 样 大 的 容量 。 这 
一 点 很 重要 ， 因 为 之 前 HDD 广 商 认 为 HDD 的 优势 是 容量 增 大 很 容易 ， 
增加 盘 片 密度 就 可 以 了 ， 成 本 很 低 ， 而 SSD 必 须要 内 部 心 片 数量 翻番 才 
能 实现 容量 翻 倍 。 但 是 这 款 MLC SSD 证 明 一 个 存储 单元 (Cell) 多 存 几 
个 比特 也 可 以 让 容量 翻 几 番 ， 但 是 性 能 却 远 超 HDD: 读 写 带宽 分 别 为 
240MB/S 和 215MB/s， 读 延迟 小 于 100hs， 随 机 读 写 分 别 为 50k IOPS 和 
10k IOPS。HDD 广 商 的 危机 来 临 了 。 


SSD 的 巨大 革新 惊动 了 很 多 技术 大 牛 ，Apple 的 早期 创始 人 Steve 
Wozniak 成 为 Fushion-IO 的 首席 科学 家 。 


大 名 蜀 思 的 SandForce 推 出 了 第 一 代 SSD 控 制 费 SF-1000， 是 当时 最 
快 的 2.5 寸 SATA SSD 蕊 片 ， 拥 有 250MB/s 读 写 带 宽 ，30k IOPS。Intel 为 
内 部 员工 配备 了 1 万 台 SSD 笔 记 本 。Micron 的 C300SSD 实 现 读 带 宽 
355MB/S 和 写 带 宽 215MB/s。 


在 SSD 的 热潮 中 ，HDD 的 巨头 希捷 也 坐 不 住 了 ， 试 验 性 地 开始 销售 
SSD 产 品 。 


9.2010 年 ，SSD 市 场 开 始 繁荣 
2010 年 ，SSD 市 场 达 到 了 10 亿 美金 。 











Fusion-IO 宣 布 年 度 营 收 增长 300%。SandForce 开 始 使 用 广告 
词 “SandForce Driven SSDs”。 这 一 年 企业 级 市 场 还 是 SLC， 但 是 消费 级 
产品 开始 广泛 使 用 MLCT 了 。 


10.2011 一 2012 年 ， 上 市 、 收 购 ， 和 群雄 并 起 


2011 年 6 月 ，Fusion-IO 上 市 ， 市 值 18 亿 美金 ， 后 来 一 度 达到 40 多 亿 
美金 ， 这 家 当年 的 明星 公司 没 想 到 后 来 11 亿 美金 便宜 卖 近 了， € UE 
不 已 ， 可 见 大 家 看 好 的 SSD 市 场 竞争 异常 激烈 。 


SandForce 说 他 们 的 SSD 控 制 占 内 置 数 据 实时 压缩 功能 ， 这 使 得 SSD 
的 使 用 寿命 进一步 延长 ， 读 写 带宽 也 得 到 提高 。 因 为 经 过 压缩 后 ， 实 际 
写 入 SSD 内 部 的 数据 大 幅度 减少 ， 这 个 实时 压缩 技术 听 起 来 简单 ， 可 是 
实现 起 来 异常 复杂 ， 因 为 压缩 之 后 每 一 个 用 户 数据 页 的 大 小 都 不 一 样 ， 
映射 表 等 的 设计 需要 非常 精妙 。 所 以 ， 至 今 仍 然 没 有 几 家 公司 实现 SSD 
内 部 压缩 。 不 得 不 说 ， 已 经 个 轮 看 收购 ， 最 后 落 入 布 捷 手 中 的 
SandForce 是 SSD 控 制 占 市 场 最 成 功 的 公司 : 做 出 了 最 成 功 的 产品 ， 技 术 
非常 精妙 ， 市 场 又 很 成 功 。 


新 的 厂商 不 断 出 现 ， 巨 头 的 土地 兼并 也 开始 了 。 几 个 著名 的 控制 器 
芯片 厂商 消失 : 2011 年 年 初 ，OCZ 以 3200 万 美金 收购 Indilinx; 年 底 ， 老 
牌 存 储 心 片 玩家 LSI 以 3.7 亿 美金 收购 了 SandForce; 2012 年 6 月 ，Hynix 收 
购 了 LAMD (Link A Media Devices) 。 
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图 1-11 SandForce 宣 传 SSD 击 败 HDD 的 海报 


企业 级 市 场 也 开始 使 用 MLC。 闪 存 阵 列 三 商 Skyera (其 Logo 如 图 1- 
12 所 示 ) 推出 了 44TB 的 SSD， 售 价 13.1 万 美金 ! 


SKYERA 


SOLID STATE STORAGE SYSTEMS 
图 1-12  Skyera Logo 

这 一 年 的 另 一 个 重大 事件 是 IBM 收 购 了 老牌 RAM SSD 厂 商 TMS 。 
11.2013 年 ，PCIe SSD 进 入 消费 者 市 场 

台式 机 和 笔记 本 觉得 SATA 已 经 不 够 用 了 ，SATA 是 为 HDD 设 计 的 
接口 ， 最 大 速度 是 6Gbps， 只 能 达到 最 高 600MB/s 的 带宽 〈 扣 除 协议 开 
销 ， 实 际 速度 可 能 只 有 560MB/s 左 在) ， 同 时 命令 队列 不 够 深 ， 不 适合 
SSD 使 用 。SSD 开 始 在 协议 上 引发 存储 技术 的 变革 。 


同时 出 现 了 可 以 插 在 内 存 DIMM 插 槽 里 的 SSD， 容 量 大 ， 速 度 快 ， 
掉 电 数据 还 在 ， 就 看 用 户 怎么 使 用 内 存 了 。 软 件 可 得 跟 上 啊 ! 


内 存 阵 列 广 商 Violin Memory 纳 斯 达 殉 上 市 ， 让 投资 人 翡 众 的 是 当 
天 股价 从 9 美金 跌 到 7 美金 ， 两 周 后 CEO Donald Basile 被 赶 跑 了 。 看 来 全 
内 存 阵 列 的 前 景 并 不 被 看 好 。 

年 底 ，LSI 被 Avago 以 66 亿 美金 收购 。 

12.2014 年 ，SSD 软 件 平台 重 构 企业 级 存储 


SSD 大 放 异 彩 需 要 整个 生态 链 的 文 持 ， 因 为 以 前 的 软件 和 协议 都 是 
为 慢 速 HDD 设 计 的 。 现 在 它们 需要 适应 快速 的 硬盘。 


VMware 的 VSAN 能 够 支持 3 一 8 个 服务 器 节点 。SanDisk 的 企业 级 存 
储 软 件 ZetaScale 


支持 占用 大 量 内 存 的 应 用 ， 有 了 SSD 后 ，DRAM 作 为 缓存 ，SSD 来 




















存储 程序 数据 ， 速 度 依然 很 快 。 这 对 有 着 大 量 数据 的 数据 库 来 说 非常 有 
用 ， 不 用 开发 硬盘 的 接口 了 ， 数 据 都 可 以 放 在 内 存 里 面 。 


SanDisk 11 亿 美金 收购 Fusion-IJO， 和 希捷 4.5 亿 美金 收购 Avago (LSI) 
的 企业 级 SSD 部 门 ASD 和 SSD 控 制 右 必 片 部 门 FCD (SandForce) 。 


年 底 ， 原 SandForce 创 始 团 队 创建 的 创业 公司 Skyera 被 WD 收 购 。 
13.2015 年 ，3D XPoint 

Tezarron 说 会 在 2016 年 采用 Rambus 的 ReRAM 来 做 SSD。 

Northwest Logic 开 发 的 FPGA 控 制 句 可 以 文 持 Everspin 的 MRAML。 

Toshiba 发 布 48 层 3D 闪 存 样品 ， 容 量 16GB。 

Diablo 和 Netlist 打 官司 ，Diablo 赢 了， 官司 的 内 容 是 ultrafast Flash 
DIMM。 他 们 发 布 了 Memory1， 号 称 能 在 需要 大 内 存 的 环境 下 蔡 换 内 
存 。 

不 过 Netlist 宣 布 和 Samsung 合 作 开发 Flash As RAMÉJDIMM. 


SSD 控 制 占 厂商 SMI 5700 万 美金 收购 了 SSD 广 商 Shannon Systems 
一 一 宝 存 科 技 。 


7 月 ，Intel 和 Micron 宣 布 开发 出 了 新 型 存储 器 一 一 3D XPoint。 
Pure Storage 完 成 IPO， 上 市 。 
Crossbar D 轮 融资 3500 万 美金 ， 开 及 RRAM SSD. 
WD 190 亿 美金 收购 Sandisk。 
14.2016 年 ，NVDIMM 开 始 供 货 ， 关 键 是 怎么 标准 化 


Google 经 过 测试 认为 不 值得 花 那 么 多 钱 去 买 SLC， 其 实 MLC 性 价 比 
更 高 。 


NVMdurance 再 次 融资 ， 号 称 能 延长 内存 寿命 。 





a 


Cadence 和 Mellanox 展 示 了 PCIe 4.0 技 术 ， 带 宽 达 到 16Gbps。 


Pure Storage 表 示 2016 年 第 一 季度 全 闪存 阵 列 收入 超过 了 机 械 硬 盘 阵 
列 头 号 厂商 。 


Diablo 的 128GB DDR4Memory1 开 始 供 货 。 

希捷 展示 60TB 的 3.5 寸 SAS SSD. 

Nimbus 在 FMS 上 展示 4PB 4U HA 全 闪存 阵列 。 

Everspin (MRAM) 启动 上 市 IPO 进 程 。 

Rambus 宣 布 了 基于 FPGA 的 数据 加 速 卡 项 目 。 
SiliconMotion 发 布 了 世界 上 第 一 条 SD 5.1 标 准 的 SD 卡 控制 句 。 
Violin 破 产 保 护 。 


1.4 SSD 基 本 工作 原理 


从 主机 PC 端 开 始 ， 用 户 从 操作 系统 应 用 层面 对 SSD 发 出 请 求 ， 文 件 
系统 将 读 写 请 求 经 驱动 转化 为 相应 的 符合 协议 的 读 写 和 其 他 命令 ，SSD 
收 到 命令 执行 相应 操作 ， 然 后 输出 结果 ， 每 个 命令 的 输入 和 输出 经 协议 
标准 组 织 标准 化 ， 这 是 标准 的 东西 ， 和 HDD 无 异 ， 只 不 过 HDD 蔡 换 成 
SSD 硬 件 存储 数据 ， 访 问 的 对 象 变 成 SSD。 


SSD 的 输入 是 命令 (Command) ， 输 出 是 数据 (Data) 和 命令 状态 
(Command Status) 。SSD 前 端 (Front End) 接收 用 户 命 令 请 求 ， 经 过 
内 部 计算 和 处 理 逻 辑 ， 输 出 用 户 所 需要 的 数据 或 状态 。 


从 图 1-13 所 示 可 以 看 出 ，SSD 主 要 有 三 大 功能 模块 组 成 : 





TS 


图 1-13 SSD 系 统 调用 
-前端 接口 和 相关 的 协议 模块 ; 
-中间 的 FTL 层 (Flash Translation Layer) 模块 ; 
-后 端 和 闪存 通信 模块 。 





SSD 前 端 负责 和 主机 直接 通信 ， 接 收 主机 发 来 的 命令 和 相关 数据 ， 
命令 经 SSD 处 理 后 ， 最 终 交 由 前 端 返回 命令 状态 或 数据 给 主机 。SSD 通 
过 诸如 SATA、SAS 和 了 PCIe 等 接口 与 主机 相连 ， 实 现 对 应 的 ATA、SCSI 
和 NVMe 等 协议 ， 如 表 1-5 所 示 。 


表 1-5 SATA/SAS/PCIe 接 口 协议 


接口 主机 控制 器 接口 标准 组 织 
SATA ATA/SATA 命令 集 AHCI (Advanced Host Controller Interface ) ATA-IO 


SAS 
PCIe 


T10 of INCITS 
PCIExpress/NVM Express 





我 们 看 看 SSD 是 怎么 进行 读 写 的 ， 以 写 为 例 。 


主机 通过 接口 发 送 写 命令 给 SSD，SSD 接 收 到 该 命令 后 执行 ， 并 接 
收 主机 要 写 入 的 数据 。 数 据 一 般 会 先 组 存在 SSD 内 部 的 RAM 中 ，FTL 会 
为 每 个 逻辑 数据 块 分 配 一 个 闪存 地 址 ， 当 数据 凑 到 一 定数 量 后 ，FTL 便 
会 发 送 写 内 存 请 求 给 后 端 ， 然 后 后 端 根据 写 请 求 ， 把 缓存 中 的 数据 写 到 
对 应 的 内 存 空间 。 


由 于 闪存 不 能 窗 盖 写 ， 闪 存 块 需 擦 除 才 能 写 入 。 主 机 友 来 的 茶 个 数 
据 块 ， 它 不 是 写 在 闪存 固定 位 置 ，SSD 可 以 为 其 分 配 任何 可 能 的 闪存 空 
间 写 入 。 因 此 ，SSD 内 部 需要 FTL 这 样 一 个 东西 ， 完 成 逻辑 数据 块 到 内 
存 物 理 空间 的 转换 或 者 映射 。 


举 个 例子 ， 假 设 SSD 容 量 为 128GB， 逻 辑 数 据 块 大 小 为 4KB， 所 以 
该 SSD 一 共有 128GB/4KB=32M 个 逻辑 数据 块 。 每 个 逻辑 块 都 有 一 个 映 
射 ， 即 每 个 逻辑 块 在 | 内存 空 间 都 有 一 个 存储 位 置 。 闪 存 地 址 大 小 如 果 用 
4 字 节 表示 ， 那 么 存储 32M 个 逻辑 数据 块 在 内 存 中 的 地 址 则 需要 
32Mx4B=128MB 大 小 的 映射 表 。 


正 因为 SSD 内 部 维护 了 一 张 还 辑 地 址 到 物理 地 址 转换 的 映射 表 ， 当 
主机 发 来 读 命令 时 ，SSD 能 根据 需要 读 取 的 逻辑 数据 块 查 找 该 映射 表 ， 
获取 这 些 逻 辑 数据 在 内 存 空间 所 在 的 位 置 ， 后 端 便 能 从 闪存 上 把 对 应 数 
据 读 到 SSD 内 部 缓存 空间 ， 然 后 前 端 负责 把 这 些 数据 返回 给 主机 。 


由 于 前 端 接口 协议 都 是 标准 化 的 ， 后 端 和 闪存 的 接口 及 操作 也 是 标 
准 化 的 (内 存 遵 循 ONFI 或 者 Toggle 协 议 ) ， 因 此 ， 一 个 SSD 在 前 端 协议 
及 闪存 确 定 下 来 后 ， 差 异化 就 体现 在 FTL 算 法 上 了 。FTL 算 法 决定 了 性 


















































能 、 可 徘 性 、 功 耗 等 SSD 的 核心 参数 。 


其 实 ，FITL 除 了 完成 逻辑 数据 到 内 存 空间 的 映射 ， 还 需要 做 很 多 其 











前 面 提 到 ， 闪 存 不 能 履 盖 写 ， 因 此 随 着 用 户 数据 的 不 断 写 入 ， 内 存 
空间 会 产生 垃圾 〈 无 效 数 据 ) 。EFTL 需 要 做 垃圾 回收 (Garbage 
Collection) ， 以 腾 出 可 用 闪存 空间 用 以 写 用 户 数 据 。 


以 图 1-14 所 示 为 例 ， 在 Block x 和 Block y 上 有 很 多 垃圾 数据 ， 其 中 
Block x 上 的 A、B、C 为 有 效 数 据 ，Block y 上 的 D、 E、F、G 为 有 效 数 
据 。 垃 圾 回收 就 是 把 一 个 或 者 几 个 Block 上 的 有 效 数 据 搬出 来 集中 写 到 
某 个 空闲 Block 上 《比如 Block z) 。 当 这 些 Block 上 的 有 效 数 据 都 搬 走 
后 ，FTL 便 能 探 除 这 些 Block， 然 后 又 能 把 这 些 Block 拿 出 来 供 SSD 写 入 
新 的 数据 了 。 


Block x Block x Block x 








图 1-14 ”垃圾 数据 回收 








还 有 ， 闪 存 都 是 有 寿命 的 ， 每 个 内 存 块 不 能 一 直 写 数据 ， 因 此 ， 为 
保证 最 大 的 数据 号 入 量 ，FTL 必 须 尽 量 让 每 个 内 存 块 均 衡 写 入 ， 这 就 是 
磨损 平衡 CWear Leveling) 。 


除 此 之 外 ，FTL 还 需要 实现 坏 块 管理 、 读 干扰 处 理 、 数 据 保持 处 
理 、 错 误 处 理 等 很 多 其 他 事情 。 理 解 J 了 FTL，SSD 的 工作 原理 也 惑 掌握 





了 。 关 于 FTL， 本 书 有 专门 音节 介绍 ， 读 者 可 自行 跳 到 第 4 章 阅 读 。 


15 SSD 产 品 核心 参数 


用 户 在 购买 SSD 之 前 ， 会 关注 它 的 一 些 参数 指标 ， 比 如 能 跑 多 快 、 
用 的 是 什么 闪存 等 。 特 别 是 企业 级 用 户 ， 需 要 全 方位 研究 SSD 的 核心 指 
标 ， 解 决 关注 什么 指标 、 如 何 关 注 、 竞 争 产 品 对 比 等 问题 ， 最 终 逐 一 拨 
开 产 品 内 在 本 质 。 本 节 以 IPntel 一 款 企 业 级 SATA 接 口 数据 中 心 盘 
〈 见 图 1-15) ， 带 大 家 一 起 解读 SSD 产 品 的 核心 





Intel® Solid-State Drive DC S3710 Series 


= Capacity: 
— 200GB, 400G8, 800GB, 1.2TB 

= Components: 
— inet? ZO NAND Flash Mernur y 
— High Endurance Technology (HET) 

Multi-Level Call (MLC) 

= Form Factor: 2 5-inch 

= Read and Write IOPS'? 
(Full LBA Range, IDMeter* Queue Depth 32) 
— Random 4KB' Reads: Up to 85,000 IOPS 
— Random 4KB Writes: Up to 45,000 IOPS 
— Random BKB' Reads: Up to 52,000 IOPS 
— Random 8KB Writes: Up to 21,000 IOPS 


= Bandwidth Performance! 
— Sustained Sequential Read: Up to 550 MB/s* 
— Sustained Sequential Write: Up to 520 MB/s 

= Endurance: 10 drive writes per day” for 5 years 
— 200GB. 3.608 400GB- B.3PB 


- BOOGB. 16.9P8 1.2TB: 243PB 
= Latency (average sequential) 


— Read: 55 ys (TYP) 
— Write: 66 us [TYP) 
= Quality of Service®? 
— Read/Write: 500 us / 5 ms (99.996) 
m Performance Consistency?^ 
— Read/Write: Jp to 9006/9046 (99.9%) 
m AES256-bit Encryption 
m Altitude? 
— Operating: -1000 to 10,000 ft 
— Operating" 10,000 to 15,000 ft 
— Non-operating -1,000 to 40,000 ft 
m Product Ecological Compliance 
— RoHS* 


= Compliance 


— SATA Revision 3.0; compatible with SATA 6Gb/s, 3Gb/s 


and 1.5Gbj/s interface rates 

— ATAJATAPI Command Set- 2 (ACS-2 Rev 7%} 
includes SCT (Smart Command Transport) 
and device statistics log support 

— Enhanced SMART ATA feature set 


— Native Command Queuing (NCQ) command set 


— Data set management Trim command 


Product Specification 
Power Management 
— 5V or 5V*12V SATA Supply Rail" 
— SATA Interface Power Management 
一 OS-zwarse hot plug/removal 
— Enhanced power-loss data protectionfeature 


Power’? 


— Active: Up to 6.9 W (TYP)* 
— idie 600 mW 
Weight: 
— 200GB: 82 grams * 2 grams 
— 400GB: 82 grams * 2 grams 
— BOOGB: 88 grams * 2 grams 
— 1.2TB: 94 grams * 2 grams 
Temperature 
— Operating. 0° C to 70* C 
— Non-Operating"- -55° C to 95° C 
— Temperature monitoring and logging 
— Thermal throttling 
Shock (operating and non-operating): 
1,000 G/0.5 ms 
Vibration 
— Operating. 2.17 Gees (5-700 Hz) 
— Non-Operating: 3.13 Gee (5-800 Hz) 
Reliability 
— Uncorrectable Bit Error Rate (UBER) 
1 sector per 10"! bits read 
— Mean Time Between Failures (MTBF): 2 million hours 
— End-to-End data protection 
Certifications and Declarations 
— UL*, CE*, C-Tick*, BSMI*, KCC*, Microsoft* WHCK, VCCI^, 
SATA-IO* 
Compatibility 
— Windows 7* and Windows 8*, and Windows 8.1* 
— Windows Server 2012* R2 
— Windows Server 2012* 
— Windows Server 2008* Enterprise 32/64bit SP2 
— Windows Server 2008* R2 SP1 
— Windows Server 2003* Enterprise R2 54bit SP2 
— VMWare* 5.1, 5.5 
— Red Hat* Enterprise Linux* 5.5, 5.6, 6, 6.3, 7.0 
— SUSE* Linux* Enterprise Server 10, 11SP1 
— CentOS* 64bit 5.7, 6.3 
— Intel? SSD Toolbox with Intel? SSD Optimizer 


[1-15 Intel DC S3700 固 态 人 硬盘 规格 书 截图 
从 图 1-15 所 示 分 类 来 看 ， 这 份 文档 给 用 户 展示 了 SSD 几 大 核心 参 


数 : 


.基本 信息 : 包括 容量 配置 (Capacity) 、 介 质 信息 


(Component) 、 外 观 尺 寸 (Form Factor) 、 重 量 (Weight) 、 环 境 


Et 


FE (Temperature) 、 震 动 可 靠 性 《Shock 和 Vibration) 、 认 证 


(Certifications) ~ JH% (Encryption). 等 信息 。 


-性 能 指标 : 连续 读 写 市 宽 、 随 机 读 写 IOPS、 时 延 〈Latency) 、 最 
大 时 延 (Quality of Service) 。 


:数据 可 靠 性 和 寿命 : Reliability、Endurance。 
: 功 耗 : Power Management, Active Power 和 Idle Power. 


.兼容 性 等 : Compliance、Compatibility (与 操作 系统 集成 时 参 
= 


当然 ， 还 有 其 他 一 些 重要 信息 在 产品 规范 书 里 是 无 法 体现 出 来 的 ， 
比如 产品 可 徘 性 (RMA Rate) 。 由 于 固件 或 者 硬件 缺陷 导致 产品 返修 
率 高 低 是 很 关键 的 ， 在 保质 期 内 产品 返修 率 越 低 越 好 。 尤 其 是 企业 级 硬 
件 ， 数 据 比 SSD 盘 本 身 更 重要 ， 有 用户 不 能 容 恕 的 是 由 于 固件 、 硬 件 可 车 
性 问题 或 缺陷 导致 于 数 据 ， 或 者 数据 无 法 通过 技术 手段 恢复 。 


产品 的 测试 条 件 信 息 、 产 品 的 系统 兼容 性 好 坏 的 信息 等 也 是 无 法 在 
产品 规范 书 里 体现 出 来 的 。 这 些 也 是 考验 购买 SSD 的 用 户 对 SSD 理 解 的 
深度 。 从 测试 条 件 的 苛刻 设计 中 提炼 出 用 户 自 己 想 要 的 测试 用 例 ， 用 测 
试 结果 来 反映 产品 规范 书 里 无 法 透露 和 显示 的 产品 的 实际 数据 信息 。 当 
然 ， 能 通过 苛刻 的 测试 ， 并 在 实际 上 线 运行 中 经 受 住 系统 的 考验 ， 日 积 
月 宗 ， 产 品 的 品牌 束 打 出 来 了 。 每 家 SSD OEM 客 户 都 有 目 己 的 标准 和 
测试 ， 通 过 实际 测试 和 运行 数据 检验 出 口碑 和 质量 好 或 差 的 SSD 供 应 


Hj o 











41 行业 是 公平 的 ， 长 期 来 看 ， 对 于 各 供应 商 的 SSD 质 量 客户 心中 是 有 


1.5.1 Ak lr 
1.SSD 容 量 


SSD 容 量 是 指 提 供给 终端 用 户 使 用 的 最 终 容量 大 小 ， 以 字 节 
(Byte) 为 单位 。 这 里 要 注意 ， 标 称 的 数据 都 以 十 进 制 为 单位 的 ， 程 序 
员 出 身 的 人 容易 把 它 当 成 二 进 制 。 同 样 一 组 数据 ， 二 进 制 比 十 进 制 会 多 
出 7% 的 容量 ， 例 如 : 





十 进 制 128GB: 128x1000x1000x1000=128000000000 字 节 
二 进 制 128GB: 128x1024x1024x1024=137438953472 字 节 


以 二 进 制 为 单位 的 容量 行业 内 称 为 裸 容 量 ， 以 十 进 制 为 单位 的 容量 
称 为 用 户 容 量 。 

裸 容 量 比 用 户 容 量 多 出 7%。 这 里 指 GB 级 ， 当 进入 到 TB 级 时 ， 数 值 
差距 更 大 。 读 者 可 自行 计算 。 


对 于 闪存 本 身 ， 它 是 裸 容量 。 那 么 ， 裸 容量 多 出 的 7% 容 量 在 SSD 内 
部 做 什么 用 呢 ?SSD 可 以 利用 这 多 出 来 的 7% 空 间 管理 和 存储 内 部 数据 ， 
比如 把 这 部 分 额外 的 空间 用 作 FTL 映 射 表 存储 空间 、 垃 圾 回收 所 需 的 预 
留 交 换 空间 、 闪 存 坏 块 的 蔡 代 空间 每 。 这 里 的 7% 多 余 空间 也 可 以 转换 
为 OP 概念 (Over Provisioning) ， 公 式 是 : 


_ SSD ARE 一 用 户 容量 
用 户 容量 














OP 


2. 介 质 1 


当前 SSD 盘 核心 存储 介质 是 闪存， 闪存 这 种 半导体 介质 有 其 自身 物 
理 参数 ， 例 如 寿命 〈(PE cycles， 编 程 探 除 次 数 ) 、Program ("25 
FE) ~ Erase GEO 和 Read GEO 时 间 、 温 度 对 读 写 擦 的 影响 、 闪 存 
页 的 大 小 、 闪 存 块 的 大 小 ..….... 这 些 都 是 介质 的 信息 ， 介 质 的 好 坏 直 接 影 
啊 数 据 存 储 的 性 能 和 完整 性 。 


QI 
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© 





闪存 分 SLC、MLC、TLC (甚至 QLC) ， 它 指 的 是 一 个 存储 单元 存 
储 的 比特 数 〈 见 表 1-6) : 


表 1-6 SLC、MLC 和 TLC 人 参数 比较 


闪存 类 型 ”| SLC | MLC | TLC 
每 单元 比特 数 | B| 5 3 
BERUOHO | 100| 3| 1 
淡 取 时 间 Cus) | sm] s 75 
编程 时 间 Cus) LN cm 1 000 
探 除 时 间 (us) 4 500 


:SLC (Single-Level Cell). 即 单 个 存储 单元 存储 1bit 的 数据 。SLC 速 
度 快 ， 寿 命 长 〈5 万 一 10 万 次 控 写 寿命 ) ， 但 价格 超 贵 〈 约 是 MLC 3 倍 
以 上 的 价格 ) 。 


:MLC (Multi-Level Cell) 即 单个 存储 单元 存储 2bit 的 数据 。MLC 速 
度 一 般 ， 寿 命 一 般 ( 约 为 3k~10k 次 擦 写 寿命 ) ， 价 格 一 般 。 


"TLC CTrinary-Level Cell) 即 单个 存储 单元 存储 3bit 的 数据 ， 也 有 
闪存 厂家 叫 8LC， 速 度 慢 ， 寿 命 短 〈 约 500 一 1500 次 探 写 寿命 ) ， 价 格 
便宜 。 








2D 对 比 3D NAND 





—R—— 


2D NAND 3D NAND 
图 1-16 2D vs.3D 闪 存 结构 示意 图 





闪存 发 展 到 现在 ， 经 历 了 2D 平 面 到 现在 的 3D 立 体制 程 〈Process ) 
的 大 发 展 ， 目 标 只 有 一 个 : 硅 片 单位 面积 (mm? ) 能 设计 生产 出 更 多 的 
比特 (bit) ， 让 每 GB 成 本 和 价格 更 低 。 这 是 介质 厂商 的 目标 和 客户 的 
诉求 ， 同 时 也 是 半导体 工业 发 展 的 趋势 。 


来 看 一 下 2D 到 3D 的 单位 面积 比特 数 的 比较 〈 见 表 1-7) ，48 层 
Samsung 的 3D V-NAND 每 平方 毫米 能 生产 出 2600Mb 的 数据 ，3 倍 于 2D 闪 
存 ， 所 以 同样 的 唱 元 可 以 切割 3 倍 的 数据 量 ， 简 单 计 算 的 话 每 GB 的 价格 
能 降 为 原来 的 1/3。 














表 1-7 不 同 内 存 密度 对 比 
Hynix 16 nm Samsung 48L V-NAND 


年 份 2016 
制程 节点 (nm) 21 
Die 面积 (mm^) i 99 





密度 (Mb/mm? ) 730 690 2 600 





最 后 我 们 来 看 一 下 各 家 闪存 生产 及 展 市 点 图 〈( 见 图 1-17〉， 辱 一句 
话 来 概括 最 终 竞 争 的 目标 ， 则 为 : 在 制程 允许 的 范围 内 ， 发 展 更 密 、 更 
快 、 价 格 更 低 的 内 存 产品 。 


| Manufacturers 2014 2015 1H16 2H16 1H17 2H17 2018 2019 2020 


19nm-Y 15nm 


96L(or 128L) 


2D 


3D XPoint™ (Optane, Intel, QuantX, Micron) 


32L(Gen1) 64L(Gen2) 128L(Gen3) 256L 


SK hynix 





图 1-17 内存 原 厂 路 线 图 
3. 外 观 尺寸 


SSD 是 标准 件 ， 外 观 尺 寸 需要 满足 一 定 的 规定 要 求 〈 长 宽 高 和 接口 
连接 器 ) ， 这 又 通常 称 为 Form Factor。 那 SSD 会 有 哪些 Form Factor 呢 ? 
细 分 为 3.5 寸 、2.5 寸 、1.8 寸 、M.2、PCIe card、mSATA、U.2 等 Form 
Factor 标 准 〈 见 图 1-18) ， 每 个 Form Factor 也 都 有 三 围 大 小 、 重 量 和 接 
口 引 脚 等 明确 规范 。 
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2.5" SATA mSATA M2 PCIe Add-In Card 
图 1-18 SSD 尺寸 部 分 一 览 


Form Factor 标 准 组 织 : 
:https://www.snia.org/forums/sssi/knowledge/formfactors 


:http://www.ssdformfactor.org/ 





我 们 这 里 看 看 温度 和 认证 及 兼容 性 信息 这 两 个 参数 。 


:温度 : 所 有 工业 品 都 有 温度 规范 ，SSD 应 在 一 定 温 度 范围 内 使 用 。 
工作 温度 为 0C 一 70C， 说 的 是 SSD 在 运行 状态 时 的 温度 ， 超 出 这 个 温 
度 范 围 SSD 可 能 出 现 产 品 异常 和 数据 异常 ， 这 不 在 产品 保证 和 保修 范围 
内 。 非 工作 温度 为 -50'C ~90C， 这 是 SSD 储 存 和 运输 期 间 的 温度 ， 也 就 
是 在 非 开 机 工作 状态 下 ， 产 品 运 输 和 仓库 存储 时 的 参考 温度 参考 。 起 
出 -50'C ~90'C，SSD 可 能 会 发 生 损 坏 。 


.认证 及 兼容 性 信息 〈 见 图 1-19) : SSD 硬 件 和 软件 都 应 通过 一 定 认 
证 测试 来 反映 产品 的 标准 测试 情况 ， 从 而 让 客户 明确 是 不 是 过 了 相应 的 
测试 。 认 证 和 兼容 性 是 对 应 标准 组 织 的 测试 集 ， 标 准 组 织 属于 第 三 方 ， 
独立 客观 ， 测 试 通过 意味 着 可 以 免 去 客户 一 部 分 测试 。 














m Certifications and Declarations 


— UL*, CE*, C-Tick*, BSMI*, KCC*, Microsoft* WHCK, VCCI*, 
SATA-IO* 


m Compatibility 


— Windows 7* and Windows 8*, and Windows 8.1* 
— Windows Server 2012* R2 
— Windows Server 2012* 


图 1-19 SSD 兼 容 性 示例 


1.5.2 ”性能 剖析 


1. 性 能 指标 


硬盘 性 能 指标 一 般 包 括 IOPS (Input Output Operations Per Second， 
反映 的 是 随机 读 写 性 能 ) 、 吞 吐 量 〈Throughput， 单 位 MB/s， 反 映 的 是 
顺序 读 写 性 能 ) . Response Time/Latency〈 啊 应 时 间 / 时 延 ， 单 位 ms 或 
us) o 


JOPS: 单位 IOPS， 即 设备 每 秒 完成 IO 请 求 数 ， 一 般 是 小 块 数据 读 
写 命令 的 啊 应 次 数 ， 比 如 4KB 数 据 块 尺寸 。IOPS 数 字 越 大 越 好 。 


CREE: 单位 MB/s， 即 每 秒 读 写 命令 完成 的 数据 传输 量 ， 也 叫 带 
?& (Bandwidth) ， 一 般 是 大 块 数据 读 写 命令 ， 比 如 512KB 数 据 块 尺 
寸 。 厨 吐 量 越 大 越 好 。 


: 啊 应 时 间 : 也 叫 时 延 〈Latency) ， 即 每 个 命令 从 发 出 到 收 到 状态 
回复 所 需要 的 啊 应 时 间 ， 时 延 指标 有 平均 时 延 (Average Latency) 和 最 
大 时 延 两 项 (Max Latency) 。 啊 应 时 间 越 小 越 好 。 





2. 访 问 模式 
性 能 测试 设计 上 要 考虑 访问 模式 (Access Patten) ， 包 括 以 下 三 部 


分 : 


.Random/Sequential: 随机 (Random) 和 连续 (Sequential) 数据 命 
令 请 求 。 何 为 随机 和 连续 ? 指 的 是 前 后 两 条 命令 LBA 地 址 是 不 是 连续 
的 ， 连 续 的 地 址 称 为 Sequential， 不 连续 的 地 址 称 为 Random.。 

"Block Size: 块 大 小 ， 即 单条 命令 传输 的 数据 大 小 ， 性 能 测试 从 
4KB 一 512KB 不 等 。 随 机 测试 一 般 用 小 数据 块 ， 比 如 4KB; 顺序 测试 一 
般 用 大 块 数据 ， 比 如 512KB。 

-Read/Write Ratio: 读 写 命令 数 混合 的 比例 。 


任何 测试 负荷 Cworkload) 都 是 这 些 模式 的 组 合 ， 比 如 : 


1) 顺序 读 测试 : 指 的 是 LBA 连 续 读 ， 块 大 小 为 256KB、512KB 等 
大 尺寸 数据 块 ， 读 写 比 例 为 100%: 0; 


2) 随机 写 测 试 : 指 的 是 LBA 不 连续 的 写 ， 块 大 小 一 般 为 4KB， 读 
写 比 例 为 0，， 10096; 


3) 随机 混合 读 写 : 指 的 是 LBA 不 连续 的 读 写 混合 测试 ， 块 大 小 一 
般 为 4KB， 读 写 保持 一 定 的 比例 。 


3. 时 延 指标 


时 延 有 平均 时 延 和 最 大 时 延 ， 数 值 越 低 越 好 。 平 均 时 延 计算 公式 是 
整个 应 用 或 者 测试 过 程 中 所有 命令 啊 应 时 间 总 和 除 以 命令 的 个 数 ， 反 映 
的 是 SSD 总 体 平均 时 延性 能 ， 最 大 时 延 取 的 是 在 测试 周期 内 所 有 命令 中 
啊 应 时 间 最 长 的 那 笔 ， 反 映 的 是 用 户 体 验 ， 例 如 最 大 时 延 影 啊 应 用 通过 
操作 系统 操作 SSD 时 有 无 卡 顿 的 用 户 体 验 。 时 延 上 了 秒 级 ， 用 户 束 会 有 
明显 的 卡 顿 感知 。 


4. 服 务 质 量 指标 


服务 质量 (Quality of Service, QoS) 表达 的 是 时 延 “ 置 信 
级 ”(Confidence Level) ， 如 图 1-20 所 示 ， 在 测试 规定 的 时 间 内 使 用 2 个 
9 (9996) 到 5 个 9 (99.999%) 的 百分比 的 命令 中 最 大 的 时 延 (Max 
Latency) ， 也 就 是 最 慢 的 那 条 命令 的 啊 应 时 间 。 整 体 上 看 ， 一 个 SSD 盘 
QoS 时 延 分 布 整体 越 靠 左 越 好 ， 即 时 延 越 小 越 好 。 


置信 级 图 
Latency — Level of 99% — Level of 99.9% Level of 99.99% Level of 99.999% === 96 Confidence 
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350 000 70 
300 000 60 
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7* 250 000 50 dz 
200 000 40 
150 000 30 
100 000 20 
50 000 | 10 
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图 1-20 SSD 时 延 分 布 图 


对 消费 级 硬盘 来 说 ， 用 户 对 时 延 要 求 可 能 不 是 很 高 。 但 对 企业 级 硬 
盘 来 说 ， 像 数据 中 心 (Data Center). 等 企业 应 用 对 时 延 的 要 求 很 敏感 ， 
比如 BAT 〈 百 度 、 阿 里 巴巴 、 腾 讯 ) 的 互联 网 应 用 ， 时 延 的 大 小 关乎 用 
户 体验 和 互联 网 应 用 快慢 的 问题 。 这 种 类 型 的 应 用 对 IOPS 和 吞吐 量 并 不 
而 更 在 乎 时 延 〈 包 括 平 均 时 延 、 最 大 时 延 或 服务 质量 等 指 
I) e 


5. 性 能 数据 一 览 


我 们 来 看 一 组 性 能 测试 数据 ， 包 括 SSD、HDD 和 SSHD (SSD 和 和 
HDD 混 合 硬 盘 ) 的 性 能 数据 ， 如 图 1-21 所 示 。 








SSD, HDD 和 SSHD 性 能 数据 总 结 


ES TOPS (数字 越 大 越 好 ) — [ek (数字 越 大 起 好 ) | 5| 


ms 
| Ca Z3 70 : 10026 W 100% 及 


HDD 和 SSHD 


7200RPM |2.5" SATA 
SATA Hybrid | 500 GB 125 147 150 135 97 MB/s 99 MB 
R30-4 WCD 
15 000 RPM 
2.5" SAS 

SAS HDD - 350 84 MB/s 90 MB/s 
IN-1117 80 GB WCD 

- 7 


消费 级 SSDs 


SATA 3 mSATA 
SSD 32 GB 18 000 838 52 793 79 MB/s | 529 MB/s 
R32-336 WCD 


SATA 3 SATA3 
SSD 256 GB 60 090 60 302 41 045 40 686 249 MB/s | 386 MB/s 
R30-5148 WCE 


企业 级 SSDs 


Enterprise SAS 

SAS SSD 400 GB 61 929 24 848 29 865 53942 393 MB/s | 496 MB/s 
RI-2288 WCD 

Server PCIe 

PCIe SSD 320 GB 133 560 73 008 53 797 $4 327 663 MB/s | 772 MB/s 
INI-1727 WCD 

Server PCIe 

PCIe SSD 700 GB 417 469 202 929 684284 | 1343 MB/s | 2 053 MB/s 
IN24-1349 | WCD 


图 1-21 SSD、HDD 和 SSHD 性 能 数据 一 览 





SATA 3 SATA3 
SSD 256 GB 56 986 3147 3719 29 876 240 MB/s | 400 MB/s 
IN8-1025 WCD 


测量 指标 包括 空 盘 (FOB，Fresh out of Box) AZ FÜHJIOPS. Æ 
吐 量 、 平 均 时 延 和 最 大 时 延 。 


测试 空 盘 IOPS 用 的 测试 模式 是 “RND 4KB 100%W”， 即 4KB (二 进 
制 4KB， 即 4096 字 节 ) 随机 100% 纯 写 。 


测试 满 盘 下 IOPS， 用 了 三 种 测试 模式 ， 分 别 为 : 


1) RND 4KB 100%W: 数据 块 大 小 为 4KB 的 写 命令 ，100% 随 机 


与 ; 


2) RND 4KB 65: 35RW: 数据 块 大 小 为 4KB 的 读 写 命令 ，65% 的 
读 ，35% 的 写 ， 混 合 随 机 读 写 ; 


3) RND 4KB 100%R: 数据 块 大 小 为 4KB 的 读 命令 ，100% 随 机 
读 。 


从 图 1-21 中 我 们 可 以 看 出 ， 对 HDD 和 SSHD， 满 盘 下 和 空 盘 下 写 的 
IOPS 相 差 不 大 “〈 都 很 糟糕 ) ， 而 对 SSD 来 说 ， 满 盘 和 空 稻 写 的 IOPS 相 差 
很 大 。 这 是 因为 ， 对 HDD 来 说 ， 满 盘 后 ， 没 有 垃圾 回收 操作 ， 所 以 空 盘 
和 满 盘 下 写 的 性 能 差不多 ;但 对 SSD 来 说 ， 满 盘 后 ， 写 会 触发 垃圾 回 
收 ， 导 致 写 性 能 下 降 。 


对 消费 级 SSD 来 说 ， 商 家 给 的 测试 数据 一 般 是 空 盘 下 测试 的 数据 ， 
数字 相当 好 看 , “最 高 可 达 ” 常 挂 嘴 边 。 新 买 的 盘 ， 我 们 测试 时 会 发 现 性 
能 和 商家 标 称 的 普 不 多 ， 但 随 着 盘 的 使 用 ， 会 出 现 挤 速 问题 。 垃 圾 回收 
ND 还 有 可 能 束 是 SLC 绥 存 用 完了 ， 这 里 束 不 具体 展开 


对 企业 级 SSD 来 说 ， 客 户 更 关注 的 是 稳 态 性 能 ， 即 满 盘 性 能 。 所 
以 ， 商 家 给 出 的 性 能 参数 一 般 是 满 盘 数 据 ,“ 最 局 可 这” 字眼 消失 。 我 们 
可 以 从 有 没有 “最 高 可 达 ” 来 快速 判断 一 个 盘 是 企业 级 还 是 消费 级 。 

关于 厨 叶 量 测试 ， 有 两 种 模式 ， 分 别 为 : 


1) SEQ 1024KB 10096W: 数据 块 大 小 为 1024KB 的 顺序 写 测 试 ; 
































2) SEQ 1024KB 10096R: 数据 块 大 小 为 1024KB 的 顺序 读 测试 。 


关于 时 延 ， 如 前 所 述 ， 有 平均 时 延 和 最 大 时 延 两 种 ， 其 中 最 大 时 延 
反映 的 是 服务 质量 。 测 试 模式 都 是 4KB 100% 随 机 写 。 从 上 可 以 看 出 ， 
SSD 测 试 的 是 cache on 下 的 时 延 ， 即 数据 到 SSD 的 内 部 缓冲 区 即 返 回 命令 
状态 。 为 什么 不 是 FUA?” 因为 对 闪存 来 说 ， 即 使 是 SLC， 也 没有 办 法 做 
到 几 十 微 秒 就 能 写 入 到 闪存 。 如 果 是 FUA 命 令 测 试 的 话 ， 其 平均 时 延至 
少 是 几 百 微 秒 。 





1.5.3 ”寿命 剖析 


用 户 拿 到 一 款 SSD， 除 了 关心 其 容量 和 性 能 参数 外 ， 还 会 关心 它 的 
Æ (Endurance) 指标 ， 也 就 是 在 SSD 产 品 保质 期 内 ， 总 的 寿命 是 多 
少 ， 能 写 入 多 少 字 节 的 数据 量 。 衡 量 SSD 寿 命 主要 有 两 个 指标 ， 一 是 
DWPD (Drive Writes Per Day? ， 即 在 SSD 保 质 期 内 ， 用 户 每 天 可 以 把 
盘 写 满 多 少 次 ; 另 一 指标 是 TBW (Terabytes Written? ， 在 SSD 的 生命 
周期 内 可 以 写 入 的 总 的 字 节 数 。 


1.DWPD 


回头 看 一 下 上 面 的 S3710SSD 的 Endurance 项 : 





m Endurance: 10 drive writes per day? for 5 years 


— 200GB: 3.6PB 400GB: 8.3PB 
— 800GB: 16.9PB 1.2TB: 24.3PB 





200GB SSD 五 年 使 用 期 限 内 对 应 的 寿命 是 3600TB， 平 均 到 每 天 可 
以 写 入 3600TB/ (5x365) =1972GB， 这 块 盘 本 身 200GB，1972GB 相 当 
于 每 天 写 入 10 次 ， 也 就 是 规范 书 说 的 10Drive Writes Per Day， 人 简称 
10DWPD。DWPD 为 5 年 的 寿命 期 内 每 天 可 以 满 盘 写 入 的 次 数 。 


由 上 可 以 看 出 ， 总 的 写 入 量 可 以 换算 成 DWPD， 一 些 SSD 指 标 上 更 
多 使 用 DWPD 作 为 寿命 参数 。 这 里 要 特别 说 明 的 是 ， 从 应 用 的 角度 出 
发 ， 多 数 应 用 读 多 写 少 ， 少 数 应 用 写 多 读 少 ， 应 用 不 同 ， 对 SSD 的 寿命 
要 求 也 不 同 。 所 以 我 们 可 以 将 其 归 类 为 : 写 密集 (Write Intensive) Aix 
密集 (Read Intensive) 两 种 类 型 。 


表 1-8 比 较 好 地 归纳 出 应 用 场合 和 应 用 读 写 特 点 所 需求 的 DWPD 参 
数 ， 这 里 就 不 展开 解释 了 。 


表 1-8 DWPD 参 数 


用 户 场景 | 需求 寿命 ， DWPD 应 用 
写 密集 关键 应 用 : 数据 库 、 媒 体 编辑 、 虚 拟 化 
- 股 读 密集 3 — 10 | Yv O| 读 写 差不多 的 应 用 : 数据 仓库 、 读 缓存 


重度 读 密 集 | “1~3 | Y | 写 少 读 多 应 用 : 启动 分 多、 网 页 或 文件 服务 器 、 视 频 播放 


天 下 没有 免费 的 午餐 ，DWPD 越 大 ， 单 盘 价 格 目 然 越 高 。 所 以 用 户 
需要 思考 的 是 什么 应 用 场景 使 用 SSD， 以 及 使 用 哪 种 DWPD 寿 命 的 
SSD， 照 顾 性 能 和 经 济 的 双重 平衡 。 最 好 的 平衡 艺术 就 是 根据 用 户 数 据 
的 生存 期 及 热度 分 层 ， 或 者 在 拉 术 架构 上 根据 数据 冷 热 和 存在 时 间 为 数 
据 打 标签 ， 然 后 放 入 对 应 的 层级 以 及 不 同 DWPD 的 SSD。 


以 下 是 一 个 典型 的 应 用 场景 的 SSD 分 级 应 用 ， OLTP 〈 联 机 事务 处 
理 ) 有 大 量 写 应 用 的 数据 (术语 叫 热 数 据 ) , TB ESEOR MR 所 以 放 入 
T1-WI SSDE, 这 一 层 SSD 单 竹 价格 融 ，. "3 第 二 层 是 写 少 读 多 
MHA NEAGO -PER 要 求 也 很 高 ， 所 以 使 用 T2-RI SSD 存 放 数 
据 ; 第 三 层 基 本 上 是 冷 数 据 ， 极 少 被 读 到 和 写 到 ， 所 以 用 大 容量 低 价 的 
HDD 也 无 可 厚 非 。 总 体 来 说 OLTP 用 到 了 40% 的 SSD， 算 是 对 SSD 需 求 量 
比较 高 的 应 用 类 型 。 当 然 也 有 不 太 需 要 SSD 的 应 用 ， 如 图 1-22 最 右 列 所 
示 的 Disaster Recovery 〈 容 灾 备 份 ) 。 


数据 库 k 容 灾 恢复 
un a g - 
最 新 数据 Emm 
^ 

2 
存档 的 数据 


40% SSD 15% SSD 0% SSD 
数据 库 查找 表 KAKEM -AKG 
图 1-22 ”数据 分 层 及 SSD 应 用 
最 后 我 们 来 看 一 下 现实 世界 对 SSD 的 DWPD 要 求 。 数 据 显 示 更 多 的 


应 用 是 写 少 读 多 ，83% 的 应 用 使 用 少 于 1DWPD 的 SSD。 想 象 一 下 消费 级 
SSD， 我 们 每 天 的 数据 写 入 量 是 极 少 的 ， 盘 生命 周期 内 几乎 不 会 被 填 





























T1-145 TB10K 


满 ， 所 以 极 低 的 DWPD 是 可 以 接受 的 。 业 界 主流 的 消费 级 SSD DWPD 是 
0.3。 可 以 预见 的 是 ， 数 据 爆 炸 的 时 代 ， 用 户 对 数据 总 量 的 需求 是 逐年 
递增 的 ， 即 新 增 数据 成 倍数 逐年 增加 ， 尤 其 是 企业 级 应 用 ， 这 个 83% 是 


人 否 会 减少 ? 答案 是 肯定 的 。 





SSD 中 DWPD 的 分 布 


49% 
23% 
11% 14% 
3% 
0.1 0.5 l 5 10 
DWPD 但 


8399 少 于 1 DWPD 
[1-23 SSD DWPD 现 实 需求 
2.TBW 
TBW 就 是 在 SSD 的 生命 周期 内 可 以 写 入 的 总 的 字 节 数 ， 用 来 表达 
SSD 的 寿命 指标 。 从 SSD 的 设计 来 看 ， 如 何 设计 来 满足 SSD 的 TBW 要 求 
或 者 SSD 的 TBW 是 如 何 计 算 的 ? 哪些 因素 会 影响 SSD 的 TBW? 
MA TAAN 


; : ; NAND PE Cylces (NAND 5 RB Xp ) 
总 写 入 量 TBW=Capacity ( 单 盘 容量 ) X 
udis s d à WA (EJ X) 





X: 
-NAND PE Cycles: SSD 使 用 的 闪存 标 称 写 探 除 次 数 ， 如 3K、5K。 
"Capacity: SSD 单 盘 用 户 可 使 用 容量 。 


WA: 写 入 放大 系数 ， 这 跟 SSD FW 的 设计 和 用 户 的 写 入 的 数据 类 
型 (顺序 写 还 是 随机 写 ) 强 相关 。 


TBW 和 DWPD 的 计算 公式 : 


IBW 





DWPD- E 
Years (SSD 盘 标 称 使 用 年 限 ) X365x Capacity (HARE) 


有 了 上 面 的 公式 ， 你 可 以 简单 计算 一 块 SSD 盘 的 TBW 或 者 由 TBW 
计算 每 天 的 写 入 量 。 


1.5.4 ”数据 可 靠 性 剖析 


SSD 有 几 个 关键 指标 来 衡量 其 可 靠 性 : UBER. RBERAIMTBF. 
UBER: Uncorrectable Bit Error Rate， 不 可 修复 的 错误 比特 率 。 
:RBER: Raw Bit Error Rate， 原 始 错误 比特 率 。 
:MTBF: Mean Time Between Failure， 平 均 故 障 间 隔 时 间 。 

1. 数 据 可 靠 性 
我 们 接着 看 一 下 S3710SSD 手 册 中 Reliability (可 靠 性 ) 项 的 截图 : 


m Reliability 
— Uncorrectable Bit Error Rate (UBER): 
1 sector per 10" bits read 
— Mean Time Between Failures (MTBF): 2 million hours 
— End-to-End data protection 


UBER 是 一 种 数据 损坏 率 衡 量 标准 ， 等 于 在 应 用 了 任意 特定 的 错误 
e una 比特 读 取 的 数据 错误 数量 占 总 读 取 数 量 的 比例 
MME) - 


为 什么 SSD 要 定义 UBER? 任何 一 项 存储 设备 产品 ， 包 括 HDD， 用 
户 最 关心 的 都 是 数据 保存 后 的 读 取 正 确 性 。 试 想 数据 丢失 和 损坏 对 客户 
产生 的 后 果 是 怎么 样 的 ? 尤其 是 企业 级 用 户 数据 。 那 如 何 让 用 户 相信 存 
储 设备 系统 是 可 靠 的 呢 ? UBER 指 标 描 述 的 是 出 现 数据 错误 的 概率 ， 给 
00 0 0 eso MOUSE 
ui. 


为 什么 会 产生 错误 数据 ? SSD 的 存储 介质 是 内 存 ， 内 存 有 天 然 的 数 
据 比 特 翻 转 率 。 主 要 有 以 下 几 种 原因 导致 : 


. 探 写 磨损 (P/E Cycle) 。 























: 读 取 干扰 (Read Disturb) 。 
编程 干扰 (Program Disturb) 。 
.数据 保持 (Data Retention) 发 生 错 误 。 


虽然 SSD 主 控 和 固件 设计 会 用 纠 错 码 (ECC) 的 方式 (可 能 还 包括 
其 他 方式 ， 如 RAID) 来 修正 错误 数据 ， 但 错误 数据 在 某 种 条 件 下 依然 
所 以 需要 用 UBER 让 用 户 知 道 数 据 误 码 纠 不 回来 的 
DE m 


闪存 原始 的 数据 比特 翻转 加 上 BCH 码 (一 种 ECC 纠 错 算 法 ) 经 ECC 
校 验 码 保护 后 ， 可 以 计算 转换 到 UBER。 影 响 UBER 最 核心 的 因素 是 
RBER。 图 1-24 所 示 为 从 RBER.、 ECC 编 码 长 度 (Code Length) 和 保护 强 
FE (Strength) 换算 到 UBER， 从 中 得 出 结论 : 相同 的 ECC 编 码 长 度 ， 随 
着 保护 强度 的 增长 ，UBER 在 大 幅度 降低 。 











编码 长 度 ^ RBER 纠 错 强度 码 率 UBER 
8192 1.25e-3 37 0.937 
8192 1.25e-3 38 0.935 2.705e-14 
8192 1.25e-3 39 0.933 7.012e-15 
8192 1.25e-3 40 0.932 1.775e-15| |, 4000x 
8192 1.25e-3 41 0.930 4.383e-16 
8192 1.25e-3 42 0.928 1.057e-16 


8192 1.25e-3 43 0.927 
图 1-24 UBER 和 纠 错 强 度 的 关系 


在 相同 的 ECC 编 码 长 度 和 保护 强度 下 ，RBER 越 低 ，UBER 越 低 ， 
并 呈 指 数 级 降低 ， 如 图 1-25 所 示 。 


RBER 上 反映 的 是 内 存 的 质量 。 所 有 内 存 出 广 时 都 有 一 个 RBER 指 
标 ， 企 业 级 闪存 和 消费 级 闪存 的 RBER 显 然 是 不 同 的， 价格 当然 也 有 所 
不 同 。RBER 指 标 也 不 是 固定 不 变 的 ， 如 图 1-26 所 示 ， 闪 存 的 数据 错误 








率 会 随 着 使 用 寿命 (PE Cyce) 的 增加 而 增加 。 为 了 挑战 极限 ， 必 须 准 
备 好 处 理 每 100 个 bit 就 有 1 个 坏 bit 的 情况 。 










编码 长 度 — RBER 纠 错 强度 但 率 UBER 

8192 2.75e-3 40 0.932 

8192 2.50e-3 40 0.932 2.116e-07 

8192 2.25e-3 40 0.932 1.987e-08 

8192 2.00e-3 40 0.932 1.128e-09 | | 840 000 000x 
8192 1.75e-3 40 0.932 3.373e-11 

8192 1.50e-3 40 0.932 4.350e-13 

8192 1.25e-3 40 0.932 
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PE Cycles 
图 1-26 ”RBER 和 PE 的 关系 





RBER 还 跟 闪 存 内 部 结构 也 有 关系 。 两 个 相 邻 内 存 块 的 RBER 有 可 
能 完全 不 同 ， 图 1-27 是 单个 内 存 块 里 面 不 同 内 存 页 的 RBER 分 布 图 。 看 





得 出 来 ，Upper Page 的 RBER 比 Lower Page 的 RBER 要 高 两 个 数量 级 。 


o Lower pages 
Upper pages 


x 10? 





Page index within block 


图 1-27 Lower&Upper page RBER 
通常 商用 企业 级 和 消费 级 SSD 的 UBER 指 标 如 表 1-9 所 示 。 
表 1-9 企业 级 和 消费 级 SSD 的 UBER 值 需求 


UBER 
企业 级 (Enterprise ) 10-7 其 至 1978 
消费 级 (Client) 10715 





2.MTBF 


工业 界 MTBF 指 标 反映 的 是 产品 的 无 故障 连续 运行 时 间 ， 也 是 产品 
的 可 靠 性 指标 。MTBEF 计 算 有 一 些 标准 ， 目 前 最 通用 的 权威 性 标准 是 
MIL-HDBK-217、GJB/Z299B 和 Bellcore， 分 别 用 于 军工 产品 和 民用 产 





品 。 其 中 ，MIL-HDBK-217 是 由 美国 国防 部 可 靠 性 分 析 中 心 及 Rome 实 
验 室 提出 的 ， 现 已 成 为 行业 标准 ， 专 门 用 于 军工 产品 MTBF 值 的 计算 ; 
GJB/Z299B 是 我 国 的 军用 标准 ; Bellcore 是 由 AT&T 贝 尔 实验 室 提出 的 ， 
现 已 成 为 商用 电子 产品 MTBF 值 计算 的 行业 标准 。 


MTBF 主 要 考虑 的 是 产品 中 每 个 器 件 的 失效 率 。 但 由 于 器 件 在 不 同 
的 环境 、 不 同 的 使 用 条 件 下 其 失效 率 会 有 很 大 的 区 别 ， 例 如 ， 同 一 产品 
在 不 同 的 环境 下 ， 如 在 实验 室 和 海洋 平台 上 ， 其 可 靠 性 值 肯定 是 不 同 
的 ; 又 如 一 个 额定 电压 为 16V 的 电容 在 实际 电压 为 25V 和 5V 下 的 条 件 失 
效率 肯定 也 是 不 同 的 。 所 以 ， 在 计算 可 靠 性 指标 时 ， 必 须 考 虑 多 种 因 
素 。 所 有 这 些 因素 几乎 无 法 通过 人 工 进 行 计 算 ， 但 借助 软件 〈 如 
MTBFcal 软 件 ) 和 其 庞大 的 参数 库 ， 能 够 轻松 得 出 MTBF 值 。 


对 于 SSD 而 言 ，JESD218A 标 准 定义 了 测试 SSD 每 天 读 / 写 量 的 方 
法 ， 还 补充 了 SSDD 一 些 额 外 的 失败 测试 。 要 考虑 的 男 一 件 事 是 : 什么 工 
作 负 载 用 于 测试 MTBF? 例如 合格 的 SSD 使 用 工作 负载 每 天 写 20GB， 一 
共 5 年 ， 基 于 这 个 工作 负载 加 上 补充 性 失效 测试 ， 这 天 SSD MTBF 可 达 
到 120 万 小 时 。 但 如 果 工 作 量 减少 到 每 天 写 10GB，MTBF 将 变 为 250 万 小 
时 ， 如 果 每 天 写 5GB， 就 是 400 万 小 时 。 

















1.5.5“ 功 耗 和 其 他 剖析 


1.SSD 产 品 功 耗 
SSD 定 义 了 以 下 几 种 功 耗 类 型 : 


AN Ade) 功 耗 : 当主 机 无 任何 命令 发 给 SSD，SSD 处 于 空闲 状 
态 但 也 没有 进入 省 电 模 式 时 ， 设 备 所 消耗 的 功 耗 。 


-Max active 功 耗 : 最 大 功 耗 是 SSD 处 于 最 大 工作 负载 下 所 消耗 的 功 
耗 ，SSD 的 最 大 工作 负载 条 件 一 般 是 连续 写 ， 让 闪存 并 发 忙 写 和 主 控 
ASIC 满 负荷 工作 ， 这 时 的 功 耗 值 对 应 最 大 功 耗 。 


“Standby/Sleep 功 耗 : 规范 规定 了 SSD 状 态 ， 包 括 : Active. Idle. 
Standby 和 Sleep， 功 耗 值 从 Active 到 Sleep 逐 级 递减 ， 有 具体 的 实现 由 各 商 
家 自行 定义 。 一 般 来 讲 ， 在 Standby 和 Sleep 状态 下 ， 设 备 应 尽 可 能 把 不 
工作 的 硬件 模块 关闭 ， 降 低 功 耗 。 一 般 消 费 级 SSD Standby 和 Sleep 功 耗 
73100—500mW. 





.DevSleep 功 耗 : 这 是 SATA 和 了 PCIe 新 定义 的 一 种 功 耗 标准 ， 目 的 是 
在 Standby 和 Sleep 基础 上 再 降 一 级 功 耗 ， 配 合 主机 和 操作 系统 完成 系统 
在 休眠 状态 下 《〈 如 Hibernate) ，SSD 关 掉 一 切 自身 模块 ， 处 于 极致 低 功 
耗 模 式 ， 甚 至 是 零 功 耗 。 一 般 是 10mW 以 下 。 


对 于 主机 而 言 ， 它 的 功 耗 状态 和 SSD 作 为 设备 端 是 一 一 对 应 的 ， 而 
功 耗 模式 发 起 端 是 主机 ，SSD 被 动 执行 和 切换 对 应 功 耗 状态 。 


系统 Power State (SATA SSD 作 为 OS 租 ) : 





.S0: 工作 模式 ，OS 可 以 管理 SATA SSD 的 Power State，D0 或 者 D3 
都 可 以 。 


SS1: 是 低 唤醒 延迟 的 状态 ， 系 统 上 下 文 不 会 丢失 (CPU 和 
Chipset) ， 硬 件 负责 维持 所 有 的 系统 上 下 文 。 


:S2: 与 S1 相 似 ， 不 同 的 是 处 理 器 和 系统 Cache 上下文 会 丢失 COS 


负责 维护 Cache 和 处 理 器 上 下 文 ) 。 收 到 唤醒 要 求 后 ， 从 处 理 器 的 reset 
vector 开 始 执行 。 


:S3: 睡眠 模式 (Sleep) ，CPU 不 运行 指令 ，SATA SSD 关 闭 ， 除 
了 内 存 之 外 的 所 有 上 下 文 都 会 丢失 。 硬 件 会 保存 一 部 分 处 理 器 和 
L2cache 配 置 上 下 文 ， 从 处 理 器 的 reset vector 开 始 执行 


:S4: 休眠 模式 (Hibernation) ，CPU 不 运行 指令 ，SATA SSD% 
闭 ，DDR 内 容 写 入 SSD 中 ， 所 有 的 系统 上 下 文 都 会 丢失 ，OS 负 责 上 下 
文 的 保存 与 恢复 。 


.S5: Soft off state， 与 S4 相 似 ， 但 OS 不 会 保存 和 恢复 系统 上 下 文 。 
消耗 很 少 的 电能 ， 可 通过 鼠标 键盘 等 设备 唤醒 。 


定 的 时 延 ， 当 然 退 出 功 耗 模式 也 需要 一 定 的 时 
延 ， 通 党 恢复 SSD 到 初始 功 耗 模式 所 花费 的 时 间 更 长 ， 如 表 1-10 所 示 。 


表 1-10 各 种 功 耗 模式 下 SSD 进 入 和 退出 的 时 间 


SSD SER TA 


IE ERIT E BE TRATTE PECTUS IRI TESTE TR ICI LE EEA 
间 换 入 换 出 ， 一 定 会 带 来 性 能 的 损失 。 对 于 SSD 设 备 功 耗 模 块 设计 而 
言 ， 建 议 : 尽 可 能 优化 低 功 耗 模式 的 进入 和 退出 时 间 。 


从 正常 工作 模式 Active 状 态 切 换 到 低 功 耗 模式 ， 需 要 找到 正确 的 切 
换 Timer。 太 短 的 Timer 会 较 早 进入 低 功 耗 模式 ， 但 唤醒 需要 时 延 ， 带 来 
主机 端 性 能 损失 ; 太 长 的 Timer 有 利于 维持 性 能 ， 但 牺牲 了 功 耗 。 


总 之 低 功 耗 是 一 个 好 的 SSD 特 性 ， 消 费 级 出 于 低 功 耗 需 求 ， 极 其 
要 这 个 特性 ， 但 企业 级 应 用 为 了 维持 性 能 ， 在 低 功 耗 上 是 弱 需 求 。 


最 后 ，SSD 各 项 功 耗 是 SSD 产 品 的 竞争 力 ， 尤 其 是 对 功 耗 敏 感 的 消 
费 级 SSD 的 部 署 ， 最 大 写 入 功 耗 和 低 功 耗 是 苋 争 力 。 最 大 写 入 功 耗 代表 
的 是 写 入 同样 数据 量 所 消耗 的 电能 ， 主 要 是 闪存 写 入 功 耗 ， 低 功 耗 是 当 
用 户 空 几 或 休眠 时 设备 节省 下 来 的 电能 ， 这 些 对 绿色 能 源 数 据 中 心 等 场 











有 很 大 帮助 。 我 们 来 看 看 几 款 消费 级 SSD 功 耗 的 对 比 ， 如 图 1-28 所 
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A SSD Slumber Power (HIPM+DIPM) 





Drive Power in mW - Lower is Better 
Samsung SSD 840 Pro 256GB (6Gbps) EJ 36.60 
Samsung SSD 840 EVO 120GB (6Gbps) [im 42.10 
Samsung SSD 840 EVO 500GB (6Gbps) Ed 44.70 
Samsung SSD 840 EVO 750GB (6Gbps) ra 46.10 


Samsung SSD 840 EVO 250GB (6Gbps) 47.30 


Samsung SSD 840 EVO 1TB (6Gbps) 54.95 


Crucial M500 120GB (6Gbps) 82.25 


SanDisk Extreme Il 120GB (6Gbps) 92.85 


SanDisk Extreme Il 480GB (6Gbps) - 105.85 


115.45 


SanDisk Extreme Il 240GB (6Gbps) - 


OCZ Vertex 450 256GB (6Gbps) - 351.70 








0 40 80 120 ' 460 200 240 280 í 320 ' 360 i 
图 1-28 AnandTech 对 几 款 SATA SSD 的 HIPM 或 DIPM slumber 模 式 的 低 
功 耗 对 比 


最 大 写 入 功 耗 对 比 〈 除 了 ASIC 主 控 和 板 级 PCB 工 作 状 态 功 耗 ， 最 大 
写 入 功 耗 和 连续 写 性 能 紧密 相关 ， 写 性 能 越 高 ， 功 耗 越 高 ) 如 图 1-29 所 
Ze 


A. Drive Power Consumption - Sequential Write 


Power in W - Lower is Better 





Intel SSD 335 240GB (6Gbps) = 1.93 
Crucial M500 120GB (6Gbps) -MEM 2.12 


Samsung SSD 840 EVO 120GB (6Gbps) 
Crucial M500 240GB (6Gbps) - 

Samsung SSD 840 EVO 250GB (6Gbps) 
Samsung SSD 840 Pro 256GB (8Gbps) - 
Crucial M500 480GB (6Gbps) - 

Samsung SSD 840 Pro 512GB (6Gbps) - 
SanDisk Extreme Il 120GB (6Gbps) - 
SanDisk Ultra Plus 256GB (6Gbps) - 
Samsung SSD 840 EVO 750GB (6Gbps) 
SanDisk Extreme Il 240GB (6Gbps) - 
Samsung SSD 840 EVO 500GB (6Gbps) 









OCZ Vertex 450 256GB (6Gbps) - 


Crucial M500 960GB (6Gbps) ENNEEEEEEEEEEEEEEEEEEEEEEEN 

SanDisk Extreme Il 480GB (6Gbps) EENEEEEEEEEEEEEEEEEEEEEEEENI 
Samsung SSD 840 EVO 1TB (6Gbps) EBENEN «57 

Samsung SSD 840 250GB (6Gbps)- EBENEN 4.28 

Intel SSD 335 240GB (Incompressible Data) EBENEN 4.32 


Samsung SSD 830 256GB (6Gbps) INNNNENEEEEEEEEEEEEEEEENE .°° 
Samsung SSD 840 500GB (6Gbps) IENNEEEEEEEEEEEEI 5 .62 


0 05612 1824 3 36 4.2 48 5.4 6 


图 1-29 AnandTech*J tk JL3XSSD I] gc X 53 A JFE 
2. 最 大 工作 功 耗 与 发 热 控制 


前 面 已 解释 过 最 大 工作 功 耗 ， 单 独 把 最 大 工作 功 耗 拉 出 来 讨论 ， 是 
因为 当 SSD 一 直 处 于 最 大 功 耗 工作 负载 下 ， 器 件 会 存在 发 热 问 题 。 为 
SSD 功 耗 最 大 的 是 ASIC 主 控 和 闪存 模块 ， 因 此 二 者 也 是 发 热 大 户 ， 当 热 

量 积累 到 一 定 程 度 ， 器 件 会 损坏 掉 ， 这 是 一 定 不 能 容忍 的 。 当 外 界 环 境 
温度 (Ambient Temperature) 处 在 50C 或 60C 时 ， 不 加 以 控制 ， 发 热 的 
速度 和 损坏 器 件 的 概率 也 会 随 之 增 大 。 所 以 工作 在 最 大 负载 下 ， 控 制 
SSD 温 度 是 固件 设计 要 考虑 的 ， 就 是 设计 降温 处 理 算法 。 














做 法 具体 的 原理 : SSD Efe op DU S d 83 0 BEL, "n 
70'C， 固 件 局 动 降温 算法 模块 ， 限 制 内 存 后 端 并 发 写 的 个 数 ， 由 于 SSD 
中 发 热 大 户 是 内 存 已 片 ， 故 当 写 并 及 数 减 少 后 ， 温 度 自 然 下 降 。 同 时 由 
于 写 并 太 下 降 ，SSD 写 性 能 也 会 下 降 ， 这 是 性 能 和 温度 的 一 个 折 中 。 





当 温 度 控 制 下 降 到 低 于 靖 值 70C 后 ，SSD 固 件 重 新 恢复 到 正名 的 后 
T "" 如 图 
1-30PTZkR. 
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图 1-30 ”温度 控制 和 SSD 性 能 的 关系 


1.5.6 SSD 系 统 兼 容 性 


SSD 的 各 项 参数 中 ， 系 统 兼容 性 指标 无 法 量化 ， 最 不 直观 ， 也 最 容 
易 梓 忽视 。 但 不 可 否认 的 是 ， 实 际 应 用 场合 中 除了 性 能 功 耗 和 可 靠 性 问 
题 ， 最 让 人 头疼 的 是 系统 兼容 性 问题 ， 表 现 为 各 种 场景 下 盘 无 法 识 列 、 
不 兼容 茶 些 型 号 主板 、 操 作 系统 无 法 兼容 等 问题 。 站 在 用 户 角度 ，SSD 
盘 的 性 能 、 功 耗 、 可 靠 性 设计 得 都 不 错 ， 测 试 出 来 的 成 绩 单 很 深 有 党， 但 
就是 系统 兼容 性 差 ， 再 好 的 盘 放 到 电脑 上 就 变 砖 ， 看 上 去 就 是 漂亮 的 花 
往 ， 中 看 不 中 用 。 所 以 渐渐 地 用 户 开 始 重视 系统 兼容 性 问题 ， 在 SSD 引 
入 前 期 用 比较 强 的 测试 覆盖 去 验证 和 观察 系统 兼容 性 。 


从 技术 上 系统 兼容 性 问题 归 类 为 如 下 几 类 。 
1.BIOS 和 操作 系统 的 兼容 性 


SSD 上 电 加 载 后 ， 主 机 BIOS 开 始 自 检 ， 主 机 中 的 BIOS 作 为 第 一 层 
软件 和 SSD 进 行 交互 : 第 一 步 ， 和 SSD 发 生 链接 ，SATA 和 PCIe 走 不 同 
的 底层 链 路 链接 ， 协 商 (negotiate〉 到 正确 的 速度 上 当然， 不 同 接口 
也 会 有 上 下 兼容 的 问题 )》， 自 此 主机 端 和 SSD 连 接 成 功 ， 第 一 步 ， 发 出 
识别 盘 的 命令 〈 如 SATA Identify? 来 读 取 盘 的 基本 信息 ， 基 本 信息 包括 
产品 part number、FW 版 本 号 、 产 品 版 本 号 等 ，BIOS 会 验证 信息 的 格式 
和 数据 的 正确 性 ， 然 后 BIOS 会 走 到 第 三 步 去 读 取 盘 其 他 信息 ， 如 
SMART， 直 到 BIOS 找 到 硬盘 上 的 主 引导 记录 MBR， 加 载 MBR;， 第 四 
步 ，MBR 开 始 读 取 硬盘 分 区 表 DPT， 找 到 活动 分 区 中 的 分 区 引导 记录 
PBR， 并 且 把 控制 权 交 给 PBR.……. 最 后 ，SSD 通 过 数据 读 写 功能 来 完成 
最 后 的 OS 加 载 。 完 成 以 上 所 有 这 些 步骤 就 标志 着 BIOS 和 OS 在 SSD 上 电 
加 载 成 功 。 任 何 一 步 发 生 错误 ， 都 会 导致 SSD 交 互 失 败 ， 进 而 导致 系统 
启动 失败 ， 弹 出 Error window2k 9 Bf o 


对 SSD 而 言 ， 其 功能 已 经 通过 了 白 盒 黑 合 测试， 但 上 述 的 加 载 初始 
化 流程 以 及 特定 的 BIOS 和 OS 版 本 线 合 的 相关 功能 测试 并 没有 上 禾 兰 到 ， 
所 以 涉及 这 些 功 能 有 时 可 能 会 导致 SSD 设 备 加 载 失 败 。 


由 于 现实 世界 中 有 太 多 的 主板 型 号 和 版 本 号 ， 一 块 羔 容 性 良好 的 
SSD 需 要 在 这 些 主 机 上 都 能 正常 运行 。 从 测试 角度 来 看 ， 系 统 兼 容 性 认 
证 包括 以 下 各 个 方面 : 















































:OS 种 类 CWindows. Linux) 和 各 种 版 本 的 OS; 
.主板 上 CPU 南北 桥 芯片 组 型 号 (Inte, AMD) 和 各 个 版 本 ; 
.BIOS 的 各 个 版 本 ; 


:特殊 应 用 程序 类 型 和 各 个 版 本 (性 能 BenchMark 工 具 、Oracle 数 据 
Fg...... ) 。 


2. 电 信号 兼容 性 和 硬件 兼容 性 


电信 号 兼容 性 和 硬件 兼容 性 指 的 是 SSD 工 作 时 ， 主 机 提供 的 电信 号 
处 于 非 稳定 状态 ， 比 如 存在 抖动 、 信 和 号 完整 性 差 等 情况 ， 但 依然 在 规范 
误差 范 围 内 ， 此 时 SSD 通 过 上 自身 的 硬件 设计 《比如 power regulator) 和 接 
口 信号 完整 性 设计 依然 能 正音 工作 ， 数 据 也 依然 能 正确 收 上 有 友 。 同 理 ， 在 
高 低温 、 电 磁 干 扰 的 环境 下 ，SSD 通 过 硬件 设计 要 有 足够 的 鲁 棒 性 
(Robust) . 


3. 容 错 处 理 


错误 处 理 与 硬件 和 软件 相关 。 系 统 兼 容 性 的 容错 特 指 在 主机 端 发 生 
错误 的 条 件 下 ，SSD 盘 即使 不 能 正常 和 主机 交互 数据 ， 至 少 不 能 变 砖 。 
当然 ，SSD 盘 若 能 容错 并 返回 错误 状态 给 主机 ， 提 供 足 够 的 日 志 来 帮助 
主机 软 硬 件 开发 人 员 调 试 就 更 好 了 。 这 里 的 错误 包括 接口 总 线 上 的 数据 
CRC 错 误 、 丢 包 、 数 据 命令 格式 错误 、 命 令 参 数 错 误 等 。 


从 设计 角度 考虑 加 入 容错 模块 设计 、 加 大 系统 兼容 性 测试 的 履 瘟 
面 ， 这 些 都 是 提高 SSD 系 统 兼容 性 的 手段 和 方法 。 但 从 过 去 的 经 验 看 ， 
系统 兼容 性 重 在 对 主机 系统 的 理解 ， 这 需要 长 期 积累 经 验 ， 该 趟 的 雷 总 
古 要 趟 的 ， 趟 过 后 束 变 成 经 验 了 ， 这 些 不 是 书本 上 能 直接 学 到 的 。 


最 后 要 强调 的 是 ，SSD 的 系统 兼容 性 是 SSD 的 核心 竞争 力 之 一 ， 不 
可 忽视 。 











16 ”接口 形态 


SSD 接 口 形 态 和 尺寸 的 英文 是 SSD Form Factor。 由 于 SSD 是 标准 
件 ， 故 它 必 须 符 合 一 定 的 接口 规范 、 尺 寸 和 电气 特性 ， 这 样 在 应 用 层面 
AAT -和 部 署 所 以 厂商 和 标准 组 织 制定 了 Form Factor 规 范 ，SSD 
厂商 和 系统 提供 商都 应 遵守 。 


不 同 应 用 场景 下 的 SSD， 其 Form Factor 尺 寸 也 不 一 样 ， 如 图 1-31 所 
示 。 表 1-11 列 出 了 当下 SATA、PCIe、SAS 接 口 和 协议 的 SSD 所 使 用 的 


Form Factor. 
















MO-276 
(BGA) 


ey 


MO-300a MO-300b MO-297 
(mSATA) (mSATA mini) (Half Slim) 


图 1-31 各 种 类 型 的 SSD 示 意 
表 1-11 SSD form Factor 和 接口 


Add-In-Card (AIC) 








SATA SSD 目 前 主要 为 消费 级 产品 和 企业 级 低 端 产 品 〈 如 数据 中 心 





Ab) ， 这 类 产品 接口 和 电气 功能 比较 成 熟 ， 是 目前 出 货 量 最 大 的 SSD。 
它 的 Form Factor 的 种 类 比较 多 ， 其 中 消费 级 产品 以 M.2 和 2.5 寸 最 为 流 
行 。 消 费 级 产品 以 SATA M.2 为 主导 ， 企 业 级 产品 以 SATA 2.5 寸 为 主 
导 。 


PCIe SSD 借 助 它 的 高 性 能 、NVMe 标 准 的 制定 和 普及 ， 以 及 软件 生 
AXE, 从 2016 年 开始 兴起 、 PCIe SSD Form Factor 最 开始 起 步 于 
AIC (Add In Card) ， 采 用 主板 上 插 卡 的 形式 ， 后 演变 到 现在 加 入 M.2 
和 U.2 形 态 。 消 费 级 PCIe SSD 由 M.2 主 导 ， 企 业 级 PCIe SSD 多 为 2.5 寸 、 
U.2 和 AIC 的 形态 。 


SAS SSD 基 本 上 应 用 于 企业 级 SSD， 其 借助 成 熟 的 SAS 协 议和 软件 
生态 ， 过 去 十 年 在 企业 级 存储 上 大 量 应 用 。 从 HDD 转 换 到 SSD， 虽 然 介 
质变 了 ， 但 接口 依然 保留 ， 原 因 是 SAS 在 企业 级 应 用 已 经 普及 ， 所 以 在 
传统 的 企业 级 存储 阵列 上 ， 主要 出 货 量 还 是 SAS， 形 态 为 2.5 寸 。 


mSATA 是 前 些 年 出 现 的 ， 与 标准 SATA 相 比 体 积 大 为 缩小 ， 主 要 应 
用 于 消费 级 笔记 本 领域 。 但 待 M.2 出 现 后 ， 基 本 上 蔡 代 了 mSATA， 革 了 
它 的 命 


M.2 原 名 是 NGFF (Next Generation Form Factor) ， 它 是 为 超 极 本 
rro 量 身 定做 的 新 一 代 接 口 标准 ， 主 要 用 来 取代 mSATA 接 
， 有 具备 体积 小 巧 、 性 能 主流 等 特点 。 


U.2Form Factor (SFF-8639) 起 步 于 PCIe SSD 2.5 寸 盘 形 态 制定 的 接 
口 ， 到 后 来 统一 了 SATA、SAS 和 PCIe 三 种 物理 接口 ， 从 而 减 小 了 下 游 
SSD 应 用 场合 的 接口 复杂 度 ， 是 一 种 新 型 连接 器 Form Factor, H Bü ERE 
还 在 更 新 中 。 











1.6.1 2.55] 


2.5 寸 是 主流 企业 级 SSD 的 尺寸 ， 这 类 SSD 包 括 SATA、SAS 和 PCIe 
三 种 不 同 接 口 和 性 能 的 企业 级 SSD，1U 存 储 和 服务 器 机 架 上 可 以 放 入 20 
一 30 块 硬盘 ， 专 为 2.5 寸 尺寸 设计 。 消 费 级 SSD， 尺 寸 主流 包括 2.5 寸 和 
更 小 尺寸 的 M.2，2.5 寸 多 应 用 于 果 面 型 PC， 而 轻 注 型 笔记 本 更 多 地 使 用 
M.2。 


2.5 寸 也 是 HDD 时 代 的 笔记 本 硬盘 的 主流 尺寸 ， 到 了 后 SSD 时 代 ， 
可 以 在 笔记 本 和 桌面 型 PC 上 沿用 ， 但 面 对 消 费 者 更 轻薄 、 更 小 硬盘 的 
尺寸 的 需求 ，HDD 就 无 能 为 力 了 ，SSD 依 然 可 以 往 更 小 尺寸 的 方向 发 
展 。 


对 于 2.5 寸 SSD 而 言 ， 由 于 闪存 密度 的 逐年 增 大 ， 往 这 个 盒子 里 塞 入 
的 容量 可 以 越 来 越 大 ， 比 如 有 了 3 层 PCB 的 16TB、32TB 容 量 的 SSD， 这 
是 高 密度 SSD 发 展 的 一 种 趋势 。 
表 1-12 SSD 规格 尺寸 


长 (mm) 宽 (mm) 局 (umm) 


69.85 





( 
ios | 19, 2540r26 


1.6.2 M.2 





如 图 1-32 所 示 ， 首 先 看 看 M.2Form Factor 〈 包 括 M.2 普 通 和 BGA 
SSD) 的 三 围 标准 : Type 1216, Type 1620、Type 1630. Type 2024, 
Type 2226、Type 2228, Type 2230, Type 2242、Type 2260, Type 
2280. Type 2828, Type 3026, Type 3030, Type 3042, Type 22110, Bj 
两 个 数字 为 宽度 ， 后 两 个 (或 三 个 ) 数字 是 高 度 。 注 意 ，PM971 就 是 
Type 1620， 厚 度 需 要 另外 定义 ， 单 面 贴 片 和 双 面 贴 片 厚 度 大 小 不 同 。 
对 于 对 厚度 有 要 求 的 ， 比 如 平板 电脑 ， 一 般 采 用 单 面 贴 片 。 


实际 上 四 个 (或 五 个 ) 数字 并 不 能 完整 定义 M.2SSD Form Factor, 
PCI-SIG 定 义 了 更 完整 的 命名 规则 ， 包 括 宽 、 高 、 厚 度 信 息 和 接口 定 
义 。 如 D2 对 应 双 面 ， 单 面 厚度 是 1.35mm; B-M 是 M.2connector key ID, 
表示 同时 支持 PCIe x2、x4 和 SATA 接 口 ， 等 等 。 其 他 参数 定义 参考 图 1- 
33， 图 中 明确 定义 了 宽 、 高 、 厚 尺寸 和 接口 总 线形 式 ， 甚 至 可 以 支持 
USB/SD 卡 接口 ， 同 时 又 保留 了 一 些 总 线 接口 。 总 之 M.2 只 是 规范 了 一 种 
引 脚 物理 形式 ， 它 上 面 走 什么 协议 和 总 线 ， 要 看 具体 的 产品 。 


这 里 需要 解释 一 下 B 和 M key， 这 是 两 种 主流 的 M.2key 定 义 ，B 也 叫 
Socket2，M 叫 Socket3，B+M 表 示 同 时 文 持 Socket2 和 Scoket3。B 和 M 的 
区 别 在 于 : M 多 了 PCIe x4， 可 以 文 持 4 个 通道 ， 接 口 带宽 最 高 可 以 到 
4GB4S， 实 际 上 Top 和 Bottom 两 面 都 有 接口 金 手 指 ， 引 脚 数 翻 倍 ;B 仅 文 
持 SATA/PCIe x2， 接 口 带 宽 最 高 可 以 到 2GB/s， 仪 文 持 Top 面 金 手指 引 
脚 。MVSocket3 无 论 在 消费 级 还 是 企业 级 都 是 未 来 主流 形式 。 
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图 1-32 ”各 种 不 同 M.2 规 格 
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1.6.3 BGA SSD 


1.BGA SSD 的 出 现 


半导体 的 发 展 规律 是 从 单个 分 立 元 件 到 高 度 集成 化 。 想 象 一 下 ， 过 
去 的 单个 HDD， 从 只 能 存储 几 十 MB 的 庞然大物 发 展 到 现在 一 个 能 装 下 
A 这 些 都 是 半导体 技术 进步 、 制 程 进步 和 生产 制造 
进步 市 来 的 。 


SSD 也 走 在 这 条 规律 的 道路 上 ， 随 着 制程 和 封装 技术 的 成 熟 ， 当 今 
一 个 PCB 2.5 寸 大 小 的 存储 器 可 以 放 到 一 个 16mmx20mm BGA 封 装 中 ， 
这 就 是 BGA uSSD， 如 图 1-34 所 示 。 


早 在 几 年 前 ，Intel 和 几 家 公司 就 在 讨论 在 消费 级 平板 或 笔记 本 市 场 
推出 M.2BGA SSD 及 其 标准 ， 如 比较 传统 的 M.22260/2280/22110SSD， 
它 有 几 点 技术 优势 : 


:节省 了 15% 以 上 的 平台 空间 ; 
-增加 了 10% 的 电池 寿命 
842 T 0.5mm-1.5mm SSD 本 身 的 高 度 ; 


:具有 更 好 的 散热 性 (由 于 是 BGA 封 装 ， 热 可 以 由 ball pin 传 导 到 
PCB 板 散 出 ) 。 


实际 上 那 时 候 标 准 规范 灌 后 ，SSD 也 才刚 刚 兴 起 ，BGA 封 装 技术 还 
不 成 熟 并 且 还 缺乏 消费 级 平台 主板 的 支持 ， 故 并 没有 在 消费 级 笔记 本 和 
平板 上 看 到 BGA M.2 的 产品 ， 在 工业 级 和 其 他 小 细 分 市 场 倒是 有 少量 的 
BGA SSD 在 售 。2016 年 PM971 被 三 星 投放 到 市 场 ， 从 而 拉 开 了 BGA 
SSD 在 消费 级 平板 关 产 品 普及 的 太医 ， 预测 各 大 厂商 随后 会 推出 相应 的 
竞 品 ， 让 我 们 拭目以待 。 当 然 了 ， 在 BGA SSD 普 及 的 过 程 中 ， 关 键 还 是 
要 看 价格 ， 只 要 OEM 价 格 到 位 ， 普及 不 是 问题 。 











Battery Battery 
214 x 99 x 4mm 214 x 108 x 4Amm 
33.4 WHr 37.0 WHr 


NAND SSD m.2 NAND BGA 
Card 22 x 60mm 16 x 20mm 
Intel 内 部 对 m.2 SSD BGA SSD 
图 1-34 ”传统 M.2SSD 与 BGA SSD 空 间 占 用 对 比 





BGA uSSD 引 脚 纳 入 M.2 标 准 ， 包 括 Type 1620, Type 2024, Type 
2228、Type 2828， 主 流 的 是 Type 1620。 


2. 江 波 龙 P900PCIe BGA SSD 


2017 年 7 月 14 日 ， 国 内 存储 行业 的 领跑 者 深圳 市 江波 龙 电子 有 限 公 
司 (Longsys) 率先 发 布 目前 世界 上 最 小 尺寸 的 NVMe PCIe 
SSD (11.5mmx13mm) ， 主 要 是 面 癌 和 伐 入 式 存 储 应 用 ， 包 括 二 合 一 电 
脑 、 超 薄 笔 记 本 、VR 虚 拟 现实 、 智 能 汽车 等 。 新 推出 的 
FORESEEPCIe? BGA SSD， 以 P900 命 名 ， 如 图 1-35 所 示 。 该 产品 在 
2017 年 8 月 8 日 硅谷 的 FMS 全 球 内 存 峰 会 ) 2017 及 9 月 6 日 深圳 洲际 酒店 
CFM (中 国内 存 市 场 峰 会 ) 2017 腕 相 。 


2016 年 ，Flash 原 三 相继 发 布 了 16mmx20mm 的 PCIe BGA SSD 产 
品 。 而 江波 龙 此 次 发 布 的 P900 系 列 ， 设 计 尺 寸 仅 为 11.5mmx13mm (H, 
图 1-36) ， 是 目前 (2017F) 世界 上 最 小 尺寸 的 SSD， 其 与 手机 中 的 
eMMC 及 UFS 的 尺寸 一 样 大 小 ， 但 是 容量 要 大 得 多 。 












FORESEE 


60G6B~4806B ， i 
< | 44 PCleBGASSD 








e"e""|c)oeceocone 
相生 和 和 和 
相机 
tetee 
和 和 
HPP000 e 
(E O E 
secete e 
eetet eg e 
teete ITIZPIIX 
etette 
省 和 
看 相机 
古本 
* 
e 


e 
LÀ 
L4 
e 
€ 
LÀ 
Li 
LÀ 
LÀ 
Ld 


te 
L0 23 1. 
LEE s 
t.e. 


图 1-36 ”江波 龙 Longsys 新 品 : FORESEE? NVMe PCIe BGA 
SSD (11.5mm*13mm) 


而 在 容量 方面 ，P900 系 列 可 提供 512GB、256GB、128GB 以 及 60GB 
等 多 种 选择 。 江 波 龙 计划 在 2017.Q4 向 客户 提供 样品 ，2018.Q1 量 产 ， 并 


面向 全 球 销售 。 


P900 支 持 PCIe Gen3.0x2 接 口 与 NVMe1.3 协 议 ， 且 主 控 配 备 带 硬件 
加 速 器 的 散 入 式 SRAM。 江 波 龙 自己 开发 固件 用 于 优化 IOPS 性 能 ， 使 用 
LDPC 支 持 3D NAND Flash， 可 实现 TLC 存 储 器 驱动 器 的 高 耐用 性 。 


P900 可 以 支持 微软 HMB (Host Memory Buffer) 功能 ， 有 了 这 一 功 
，SSD 不 再 需要 额外 搭配 DRAM， 只 需要 借助 系统 内 存 就 能 达到 高 性 
的 要 求 ， 同 时 成 本 和 功 耗 更 低 。 


另外 ，P900 系 列 可 以 支持 Boot Partition 的 功能 ， 相 当 于 把 
BIOS/UEFI 系 统 整 合 到 SSD 里 面 。 主 机 不 再 需要 额外 用 SPI Flash 作 为 系 
统 引 导 ， 这 样 可 降低 这 些 设备 的 成 本 。 





2 
H 
2 
H 


CC CC 


而 在 NAND Flash 部 分 ，P900 采 用 最 新 制程 的 64 层 3D TLC， 相 比 于 
2D TLC, 64/z3D TLC 拥 有 更 高 的 存储 密度 、 更 低 的 成 本 、 更 好 的 耐久 
性 和 更 高 的 性 能 ( 见 图 1-37)。 
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图 1-37 2D 和 3D 闪 存 对 比 
“将 闪存 应 用 到 极致 ?是 江波 龙 的 工作 目标 。 作 为 存储 行业 的 创新 


者 ， 江 波 龙 基 于 3D NAND Flash e PREI ESAE. ETE 
行业 已 耕耘 了 近 20 年 ， 一 直 在 努力 开发 新 技术 、 新 产品 、 新 存储 丙 业 模 
式 ， 这 也 体现 了 做 中 国 存储 的 风格 。 








1.6.4 SDP 


2016 年 8 月 25 日 ， 国 内 存储 行业 领军 企业 深圳 市 江波 龙 电 子 有 限 公 
司 开 创 性 地 推出 了 SSD 的 一 体 化 模块 产品 SDPIM 〈 见 图 1-38) ， 从 
而 为 消费 类 SSD 的 零售 渠道 市 场 及 了 商业 模式 市 来 革命 性 的 改变 。 





SDPTM 就 是 SATA Disk in Package， 是 指 将 SSD 主 控 蕊 片 、 闪 存 芯 
片 在 封装 三 封装 成 一 体 化 模块 ， 经 过 开 卡 量 产 、 测 试 后 出 三 。 这 种 产品 
形态 相当 于 SSD 的 半成品 ， 只 需要 加 上 外 壳 就 能 成 为 完整 的 SSD 产 品 。 
SDPIM 具有 尺寸 小 、 功 耗 低 、 质 量 轻 等 亮点 ， 其 尺寸 大 小 仅 为 
33.4x17.2x1.22mm 〈 见 图 1-39) ， 功 耗 低 至 1430mW， 质 量 仅 为 1.9g。 


-SDP" - 


ECHTE uas [SATA Disk in Pac 
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CE 





图 1-38 江波 龙 展 出 SDPTM 量 产 样品 





图 1-39 江波 龙 SDPTM 产 品 与 标准 SD 卡 对 比 


”与 传统 PCBA 模 式 相 比 ，SDPIY 具备 哪些 优势 ? 具体 如 图 1-40 所 
ZN o 


SDP™ 与 PCBA 的 对 比 





高 好 非常 适合 轻松 
中 低 差 不 适合 。 复杂 难处 理 





图 1-40 江波 龙 SDPTM 与 传统 PCBA 的 对 比 


由 于 采用 了 模块 化 的 制造 方式 ， 相 对 于 传统 的 PCBA 制 造 方式 ， 
SDPIM 产品 可 以 将 SSD 成 品 生产 时 间 从 以 前 的 15 天 缩短 到 1 天 。 产 能 从 
15K/ 天 扩大 到 100K/ 天 ， 同 时 具有 更 稳定 的 品质 以 及 更 短 的 交 货 时 间 等 
Jo Fi e 








165 UZ2 


U.2 俗 称 SFF-8639， 这 是 新 生产 物 ， 采 用 非 AIC 形 式 ， 以 盘 的 形态 存 
在 。 开 发 U.2 的 目的 是 统一 SAS、SATA、PCIe 三 种 接口 ， 方 便 用 户 部 
署 。 其 标准 至 本 书 完稿 时 还 在 不 断 更 新 和 补充 中 。 不 可 人 否认 的 是 ， 在 
PCIe 取 代 SATA 甚 至 SAS 的 未 来 ，U.2 连 接 器 和 Form Factor 会 成 为 企业 级 
SSD 盘 存在 的 主要 形态 ，PCIe 接 口 成 为 主要 接口 。 





1,7. 国 态 存储 市 场 


1.7.1 ”SSD 正在 取代 HDD 








从 2000 年 年 初 SSD 和 雏形 诞生 ， 到 几 大 闪存 原 三 布局 SSD 产 品 ，SSD 


经 历 了 用 户 对 闪存 和 数据 可 靠 性 的 质疑 ， 


到 实际 产品 的 试 水 、 铺 开 ， 一 


直到 2015 年 才 掀起 SSD 蔡 换 HDD 的 浪潮 。 到 2017 年 ， 消 费 级 SSD 市 场 中 
SSD 的 装机 率 已 到 30% 一 40%， 预 测 在 2018 年 ，SSD 装 机 率 将 超过 509%46， 


如 图 1-41 所 示 。 


SSD 市 场 装 机 率 
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图 1-41 SSD 装 机 率 
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市 场 的 数据 一 方面 表达 SSD 的 普及 率 ， 更 重要 的 是 表达 了 未 来 SSD 


的 成 长 性 。 不 可 和 否认 的 是 ，SSD 已 经 有 主导 存储 设备 市 场 的 趋势 ， 
或 大 部 分 苦 代 HDD 成 为 主流 存储 器 只 是 时 间 问 题 。 


完全 
所 以 对 于 和 希捷 和 西数 


HDD 广 商 而 言 ，HDD 销 量 下 滑 、 拥 抱 SSD 是 可 以 预见 的 必然 趋势 。 


在 性 能 、 可 靠 性 、 功 耗 等 方面 完 爆 HDD 的 SSD， 未 来 装机 率 和 普及 
率 (Market Share). 的 快慢 主要 取决 于 SSD 的 价格 ， 更 核心 的 是 内 存单 
位 GB 价格 的 变化 ， 图 1-42 所 示 是 SSD 与 HDD 相 比价 格 的 趋势 预测 。 


至 本 书 截 稿 时 ，128GB SSD 的 价格 和 1TB HDD 的 价格 基本 相当 ， 但 
每 GB 的 SSD 与 HDD 相 比 仍然 有 8 倍 的 差距 。 按 照 摩尔 定律 推算 ， 闪 存 密 
度 在 快速 增 大 ， 这 给 每 GB 内 存 的 价格 下 降 提 供 了 绝 佳 的 通道 ，SSD 价 
格 和 成 本 问题 得 到 解决 后 ， 其 前 途 一 片 光 明 。 


SSD/HDD 价格 趋势 

160 

140 

120 

100 — SSD 128G 
80 SSD 256G 


60 | u HDD LOW 
40 


2014 2015 2016 2017 2018 
图 1-42 SSD 与 HDD 的 价格 对 比 


1.7.2 SSD、HDD 应 用 场合 








数据 按照 热度 的 不 同 会 采取 不 同 的 存储 方式 ， 这 样 可 以 平衡 性 能 和 
成 本 的 问题 ， 俗 称 性 价 比 。 在 HDD 和 SSD 二 分 天 下 的 今天 ，SSD 主 要 用 
于 存放 和 用 户 贴近 的 热 数 据 ， 其 对 总 容量 需求 较 小 ， 性 能 优先 HDD 主 
要 用 于 存放 和 用 户 较 远 的 温 (warm) 数据 或 冷 (cold) 数据 ， 其 对 总 容 
量 需 求 较 大 ， 价 格 优先 。 这 是 一 种 设计 的 平衡 。 具 体 来 讲 : 

:数据 加 速 层 : 采用 PCIe 接 口 的 高 性 能 的 SSD。 

AA MWAJ JE: 采用 普通 SATA、SAS SSD. 

. 温 数 据 层 : 采用 高 性 能 HDD。 

. 冷 数 据 层 : 采用 HDD。 

.归档 层 : 采用 大 容量 价格 低廉 的 HDD， 其 至 磁带。 














1.7.3 SSD 市 场 情 况 


从 2016 年 Trend Focus 的 SSD 市 场 占 有 率 调 研 来 看 ， 总 体 来 说 三 星 
(Samsung) 领跑 整个 市 场 ， 占 据 SSD 市 场 的 半壁 江山 如 图 1-43 所 示 。 
三 星 在 主 控 、 介 质 技术 和 市 场 方 面 占 有 主导 优势 ， 尤 其 是 其 介质 ， 领 先 
竞争 对 手 1 一 2 年 的 优势 。 在 可 预见 的 未 来 ， 闪 存 原矿 会 主导 SSD 市 场 ， 
尤其 是 成 本 和 售 价 竞争 激烈 的 消费 级 SSD 市 场 。 原 因 是 SSD 90% 以 上 的 
成 本 取决 于 闪存 ， 闪 存 厂商 对 闪存 的 成 本 和 供应 有 自主 权 。 


当然 ， 非 闪存 原 厂 在 SSD 领 域 也 有 不 少 成 功 的 玩家 ， 像 Lite-ON、 
Kingston， 人 和 凭借 过 往 在 闪存、 内 存 模 组 产品 的 销售 渠道 ， 切 入 消费 级 
SSD 市 场 ， 占 据 5% 一 10% 的 市 场 份额 ， 在 SSD 成 长 过 程 中 分 得 一 杯 壮 。 


SSD 的 研发 模式 ， 三 方 配 合 : EF) AHNE) Att. XF 
NEKA) 而 言 ， 有 自己 的 主 控 和 闪存 颗粒 ， 研 发 的 核心 部 分 掌握 在 自己 
手中 。 对 于 没有 主 控 和 闪存 颗粒 的 SSD 广 商 而 言 ， 和 凭借 品牌 和 渠道 优 
势 ， 通 过 引入 第 三 方 主 控 矿 商 〈 包 括 Turmnkey FW) 和 目 己 购买 内 存 ， 知 
成 本 控制 得 当 ，SSD 的 生产 和 销售 体系 也 能 建立 起 来 ， 做 得 比较 成 功 的 
有 Lite-ON、Kingston。 总 之 SSD 的 市 场 是 内 存 原 厂 、 主 控 矿 商 、SSD 渠 
道 销售 商 三 方 共 舞 的 市 场 。 
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第 2 章 SSD 主 控 和 全 闪存 阵列 


如 前 所 述 ，SSD 主 要 由 两 大 模块 构成 一 一 主 控 和 闪存 介质 。 其 实 除 
了 了 上述 两 大 模块 外 ， 可 选 的 还 有 缓存 单元 。 主 控 是 SSD 的 大 脑 ， 承 担 着 
指挥 、 运 算 和 协调 的 作用 ， 具 体 表现 在 : 一 是 实现 标准 主机 接口 与 主机 
通信 ; 二 是 实现 与 内 存 的 通信 ; 三 是 运行 SSD 内 部 FTL 算 法 。 可 以 说 ， 
Qo DODENUS 寿命 和 可 靠 性 。 本 章 将 聚 
焦 SSD 主 控 。 











2. SSD 系 统 架 构 


SSD 作 为 数据 存储 设备 ， 其 实 是 一 种 典型 的 《System on Chip) 单 
机 系统 ， 有 主 控 CPU、RAM、 操 作 加 速 器 、 总 线 、 数 据 编码 译 码 等 模 
块 〈 见 图 2-1) ， 操 作对 象 为 协议 、 数 据 命令 、 人 介质， 操作 目的 是 写 入 
和 读 取 用 户 数 据 。 





图 2-1 ”SSD 主 控 模块 硬件 图 


图 2-1 所 示 仪 是 一 个 SSD 系 统 染 构 的 概略 图 ， 这 球 主 控 采 用 ARM 
CPU， 主 要 分 为 前 端 和 后 端 两 大 部 分 。 前 端 〈Host Interface Controller, 
主机 接口 控制 器 ) 跟 主 机 打交道 ， 接 口 可 以 是 SATA、PCIe、SAS 等 。 
后 端 (Flash Controller， 闪 存 控制 器 〉 跟 闪存 打交道 并 完成 数据 编 解 码 
和 ECC。 除 此 之 外 还 有 绥 冲 (Buffer) 、DRAM。 模 块 之 间 通 过 AXI 高 
速 和 APB 低 速 总 线 互 联 互通 ， 完 成 信息 和 数据 的 通信 。 在 此 基础 之 上 ， 
由 SSD 固 件 开发 者 构筑 固件 (Firmware) 统一 完成 SSD 产 品 所 需要 的 功 
能 ， 调 度 各 个 人 硬件 模块 ， 完 成 数据 从 主机 端 到 内 存 端的 写 入 和 读 取 。 





Afa 一 一 


2.1.1 前 端 


主机 接口 : 与 主机 进行 通信 (数据 交互 ) 的 标准 协议 接口 ， 当 前 主 
要 代表 为 SATA、SAS 和 PCIe 等 。 表 2-1 所 示 是 三 者 的 接口 速率 。 


表 2-1 SATA、SAS、PCIe 接 口 速 率 


接口 速率 (Gbps ) 
SATA 6/3/1.5 

SAS 12/6 

PCIe 通道 数 x 8 (PCIe3.0) 





SATA 的 全 称 是 Serial Advanced Technology Attachment C B fT 52 jx 
术 附 件 ) ， 是 一 种 基于 行业 标准 的 串 行 硬 件 驱 动 器 接口 ， 是 由 Intel、 
IBM、Dell、APT、Maxtor 和 Seagate 公 司 共同 提出 的 硬盘 接口 规范 ( 见 
图 2-2) . 20014££, HiIntel, APT. Dell, IBM, 3518. XGPRXXJLAJ 


组 成 的 SATA 委 员 会 正式 确立 了 SATA 1.0 规 范 。 








图 2-2 ”SATA 接口 


SAS (Serial Attached SCSI) 即 串 行 连接 SCSI， 是 新 一 代 的 SCSI 技 
术 ， 和 现在 流行 的 Serial ATA (SATA) 硬盘 相同 ， 都 是 采用 串 行 技术 


以 获得 更 高 的 传输 速度 ， 并 通过 缩短 连接 线 改善 内 部 空间 等 〈《 见 图 2- 
3) 。SAS 是 并 行 SCSI 接 口 之 后 开发 出 的 全 新 接口 ， 此 接口 的 设计 是 为 
了 改善 存储 系统 的 效能 、 可 用 性 和 扩充 性 ， 并 且 提 供与 SATA 硬 盘 的 兼 
容 性 。SAS 的 接口 技术 可 以 向 下 兼容 SATA。 具 体 来 说 ， 二 者 的 兼容 性 
主要 体现 在 物理 层 和 协议 层 。 在 物理 层 ，SAS 接 口 和 SATA 接 口 完 全 兼 
容 ，SATA 硬 盘 可 以 直接 用 在 SAS 的 环境 中 ;， 从 接口 标准 上 而 言 ，SATA 
是 SAS 的 一 个 子 标准 ， 因 此 SAS 控 制 器 可 以 直接 操控 SATA 硬 盘 ， 但 是 
SAS 却 不 能 直接 用 在 SATA 的 环境 中 ， 因 为 SATA 控 制 器 并 不 能 对 SAS 硬 
盘 进 行 控制 。 在 协议 层 ，SAS 由 3 种 类 型 的 协议 组 成 ， 根 据 连 接 设 备 的 
不 同 使 用 相应 的 协议 进行 数据 传输 。 其 中 串 行 SCSI 协 议 (SSP) 用 于 传 
输 SCSI 命 令 ，SCS[ 管 理 协议 CSMPO 用 于 对 连接 设备 的 维护 和 管理 ; 
SATA 通 道 协 议 〈STP) 用 于 SAS 和 SATA 之 间 数 据 的 传输 。 因 此 在 这 3 
种 协议 的 配合 下 ，SAS 可 以 和 SATA 以 及 部 分 SCSI 设 备 无 颖 结合 。 














图 2-3 ”SAS 接口 


PCIe (Peripheral Component Interconnect Express) 是 一 种 高 速 串 行 
计算 机 扩展 总 线 标 准 ， 它 原来 的 名 称 为 3GIO， 是 由 英特尔 在 2001 年 提 
出 的 ， 旨 在 替代 旧 的 PCI、PCI-X 和 AGP 总 线 标准 。PCIe 属 于 高 速 串 行 点 
对 点 多 通道 高 带宽 传输 ， 所 连接 的 设备 分 配 独 享 通道 带宽 ， 不 共享 总 线 
人 带宽， 主要 文 持 主 动 电源 管理 、 错 误 报 告 、 端 对 端的 可 靠 性 传输 、 热 插 








拔 以 及 服务 质量 (QoS, Quality of Service) 等 功能 。 它 的 主要 优势 就 是 
数据 传输 速率 高 ， 目 前 最 高 的 4.0 版 本 可 达到 2GB/s《〈 单 向 单 通道 速 

率 ) ， 而 且 还 有 相 "LABIRCRIB J o PCI Express 也 有 多 种 规格 , _APCI 
Express 1X $I[PCI Express 32X， 意 思 就 是 1 个 通道 到 32 个 通道 ， 能 满足 将 
来 一 段 时 间 内 出 现 的 低速 设备 和 高 速 设备 的 需求 。PCI- Express 最 新 的 接 
口 是 PCIe 4.0 接 口 。 


图 2-4 和 图 2-5 展 示 的 是 PCIe 接 口 ， 分 别 为 卡 式 和 U.2。 


e. 


图 2-4 ” PCIe 接口 式 插 卡 (CAIC) 














图 2-5”U.2 接 口 


前 端 是 负 贡 主机 和 SSD 设 备 通信 的 接口 ， 命 令 和 数据 传 笨 通过 前 端 
总 线 流 问 或 流出 SSD 设 备 。 


从 硬件 模块 上 来 看 ， 前 端 有 SATA/SAS/PCIe PHY 层 ， 俗 称 物理 
层 ， 接 收 串 行 比特 数据 流 ， 转 化 成 数字 信和 号 给 前 端 后 续 模 块 处理 。 这 些 
模块 处 理 NVMe/SATA/SAS 命 令 ， 它 们 接收 并 处 理 一 条 条 命令 和 数据 信 
息 ， 涉 及 数据 搬移 会 使 用 到 DMA。 一 般 命令 信息 会 排队 放 到 队列 中 ， 
数据 会 放 到 SRAM 人 快速 介质 中 。 如 果 涉 及 加 密 和 压缩 功能 ， 前 端 会 有 相 
应 的 硬件 模块 来 做 处 理 ， 若 软件 无 法 应 对 压缩 和 加 密 的 快速 需求 ， 则 会 
成 为 性 能 的 瓶颈 。 


从 协议 角度 ， 以 一 条 SATA Write FPDMA 命 令 为 例 对 上 述 内 容 进 行 
说 明 。 从 主机 端 文件 系统 发 出 一 条 写 命 令 请 求 ， 该 请 求 到 主板 南 桥 
AHCI 寄 存 器 后 ，AHCI 寄 存 器 执行 请 求 ， 即 进行 写 操作 ， 包 略 文件 系统 
ee 

( 见 多 2-6) : 


Write FPDMA 


DMA Setup 
a 


DMA Setup 


Status SDB 





图 2-6 SAT A Write FPDMA fs ^ UM LAT JHEZE URS 


步骤 1: 主机 在 总 线 上 发 出 Write FPDMA 命 令 FIS (Frame 
Information Structure， 帧 信息 结构 ， 是 SATA 为 了 实现 异步 传输 数据 块 
而 使 用 的 封包 ) 。 


步骤 2: SSD 收 到 命令 后 ， 判 断 自己 内 部 写 缓存 (Write Buffer) 是 
否 有 空间 去 接收 新 的 数据 。 如 果 有 ， 则 发 出 DMA Setup FIS 到 主机 端 ; 
否则 什么 也 不 发 ， 主 机 端 处 于 等 待 状态 〈 这 叫 流 控 : 数据 流量 控制 ) 。 


步骤 3: 主机 端 收 到 DMA Setup FIS 后 ， 发 送 不 大 于 8KB 数 据 的 Data 
FIS 给 设备 。 

步骤 4:， 重复 步骤 2 和 步骤 3 直到 数据 全 部 发 送 完毕 。 

步骤 5: 设备 (SSD) 发 送 一 个 状态 Status FIS 给 主机 ， 表 示 从 协议 
层面 这 条 与 命令 完成 全 部 操作 。 当 然 Status 可 以 是 一 个 good status 或 者 一 
^*bad/error status， 表 示 这 条 Write FPDMA 命 令 操 作 正 常 或 者 异常 完成 。 


SSD 接 收 命 令 和 数据 并 放 到 SSD 内 部 缓冲 区 之 后 还 需要 做 些 什 么 











WE? 任务 还 没完 成 ， 前 端 固件 模块 还 需要 对 命令 进行 解析 ， 并 分 派 任 务 
给 中 端 FTL。 命令 解析 (Command Decoder) 将 命 p 
FTL (Flash Translation Layer) 能 理解 的 元 素 : 





一 条 什么 命令 ， 命 令 属 性 是 读 还 是 写 〈 注 意 ， 本 处 是 写 命 
P 
A) ; 


写 命令 的 起 始 LBA 和 数据 长 度 ; 


条 写 命 Too 
是 否 连 续 〈 是 连续 合 还 是 随机 命令 ) 


当 命 令 解 析 完 成 后 ， 放 入 命令 队列 里 等 待 中 端 FITL 排 队 去 处 理 。 由 
于 已 经 有 了 起 始 LBA 和 数据 长 上 度 两 大 主要 信息 元 素 ，FTL 可 以 准确 地 映 
射 LBA 空 间 到 闪存 的 物理 空间 。 至 此 ， 前 端 硬 件 和 国 件 模块 完成 了 它 应 
该 完成 的 任务 。 


2.1.2” 主 控 CPU 


SSD 控 制 器 SoC 模 块 和 其 他 租 入 式 系统 SoC 模 块 并 没有 什么 本 质 的 
不 同 ， 一 般 由 一 颗 或 多 颗 CPU 核 组 成 ， 同 时 片上 有 I-RAM、D-RAM、 
PLL、IO、UART、 高 低速 总 线 等 外 围 电路 模块 。CPU 人 负责 运算 、 系 统 
调度 ，IO 完 成 必要 的 输入 输出 ， 总 线 连接 前 后 端 模块 。 


通常 我 们 所 说 的 固件 就 运行 在 CPU 核 上 ， 分 别 有 代 码 存储 区 I-RAM 
和 数据 存储 区 D-RAM。 如 果 是 多 核 CPU， 需 要 注意 的 是 软件 可 以 是 对 
称 多 处 理 (SMPO 和 非 对 称 多 处 理 CAMP) 。 对 称 多 处 理 多 核 共 享 OS 
和 同一 份 执行 代码 ， 非 对 称 多 处 理 是 多 核 分 别 执行 不 同 代码 。 前 者 多 核 
共享 一 份 ILRAM 和 D-RAM， 资 源 共 享 ; 后 者 每 核对 应 一 份 I-RAM 和 D- 
RAM， 每 核 独立 运行 ， 没 有 内 存 抢占 导致 代码 速度 执行 变 慢 的 问题 。 
当 SSD 的 CPU 要 求 计 算 能 力 更 高 时 ， 除 增加 核 数 和 单 核 CPU 频 率 外 ， 
AMP 的 设计 方式 更 加 适应 计算 和 任务 独立 的 要 求 ， 消 除了 代码 和 数据 资 
源 抢占 导致 执行 速度 过 慢 的 问题 。 


固件 根据 CPU 的 核 数 进行 设计 ， 充 分 发 挥 多 核 CPU 的 计算 能 力 是 固 
件 设计 考虑 的 一 方面 。 男 外 ， 固 件 会 考虑 任务 划分 ， 会 将 任务 分 别 加 载 
到 不 同 CPU 上 执行 ， 在 达到 并 行 处 理 的 同时 让 所 有 CPU 有 着 合理 且 均 衡 
的 负载 ， 不 至 于 有 的 CPU 忙 死 有 的 CPU 闲 死 ， 这 是 固件 架构 设计 要 考虑 
的 重要 内 容 ， 目 标 是 让 SSD 输 出 最 大 的 读 写 性 能 。 


SSD 的 CPU 外 围 模 块 包括 UART、GPIO、JTAG， 这 些 都 是 程序 必 
不 可 少 的 调试 端口 ， 另 外 还 有 定时 器 模块 Timer 及 其 他 内 部 模块 ， 比 如 
DMA、 温 度 传 感 器 、Power regulator 模 块 等 。 

















2.1.3 后 端 
本 节 将 从 SSD 主 控 角 度 来 分 析 一 下 后 端 硬 件 模 块 。 
后 端 两 大 模块 分 别 为 ECC 模 块 和 闪存 控制 器 〈 见 图 2-7) 。 
SSD 基本 架构 


as 


/ 
控制 器 | 控制 器 


图 2-7 ”SSD 中 的 ECC 模 块 和 闪存 控制 器 








ECC 模 块 是 数据 编 解 码 单元 ， 由 于 内 存 存 储 天 生存 在 误 码 率 ， 为 了 
数据 的 正确 性 ， 在 数据 写 入 操作 时 应 给 原 数 据 加 入 ECC 校 验 保护 ， 这 是 
一 个 编码 过 程 。 读 取 数 据 时 ， 同 样 需 要 通过 解码 来 检 错 和 纠 错 ， 如 果 错 
误 的 比特 数 超过 ECC 纠 错 能 力 ， 数 据 会 以 “不 可 纠 错 ” 的 形式 上 传 给 主 
机 。 这 里 的 ECC 编 码 和 解码 的 过 程 就 是 由 ECC 模 块 单元 来 完成 的 。SSD 
内 的 ECC 算 法 主要 有 BCH 和 LDPC， 其 中 LDPC 正 逐渐 成 为 主流 。 


闪存 控制 器 使 用 符合 闪存 ONFI、Toggle 标 准 的 闪存 命令 ， 负 责 管 理 
数据 从 缓存 到 闪存 的 读 取 和 写 入 。 





闪存 控制 器 如 何 和 闪存 连接 和 通信 ? 从 单个 闪存 角度 看 ， 一 个 
Die 上 LUN 是 一 个 闪存 命令 执行 的 基本 单元 ， 内 存 控制 器 和 闪存 连接 引 脚 
按照 如 下 操作 〈 见 图 2-8) : 





NV-DDR2 
Async  NV-DDR NV-DDR3 ENi 
CE# CE# CE# 
CLE CLE CLE 
ALE ALE ALE R/B# 
WE# CLK WE# 
RE# W/R& | REZ 
DQ[7:0] DQ[7:0] DQ[7:0] 
N/A DQS DQS 
WP# WP# WP# 
ENo 





图 2-8 内 存心 片 接口 


.外 部 接口 :8 个 IO 接口 ，5 个 使 能 信号 (ALE、CLE、WE#、RE#、 
CEA) ，1 个 状态 引 脚 (R/B#) ，1 个 写 保护 引 脚 (WP# ) ; 


命令、 地 址 、 数 据 都 通过 8 个 IO 接口 输入 输出 ; 


写 入 命令 、 地 址 、 数 据 时 ， 都 需要 将 WE#、CE# 信 号 同时 拉 低 ， 数 
据 在 WE# 上 升 沿 被 锁 存 ; 


-CLE、ALE 用 来 区 分 I0 引 脚 上 传输 的 是 数据 还 是 地 址 。 


从 闪存 控制 器 角度 看 ， 为 了 性 能 需求 需要 并 发 多 个 闪存 Die/LUN， 
通常 配置 有 多 个 通道 (channel)。 一 个 通道 挂 多 少 个 闪存 Die/LUN， 取 
决 于 SSD 容 量 和 性 能 需求 ，Die/LUN 个 数 越 多 ， 并 发 的 个 数 越 多 ， 性 能 
越 好 。 


Die/LUN 是 闪存 通信 的 最 小 基本 管理 单元 ， 配 有 上 述 的 一 套 总 线 ， 
即 8 个 IO 口 ，5 个 使 能 信号 (ALE、CLE、WE#、RE#、CE#) ，1 个 状 








态 引 脚 RBE) ，1 个 写 保 护 引 脚 (WP#) ...... 


如 果 一 个 通道 上 挂 了 多 个 闪存 Die/LUN， 每 个 Die 共 用 每 个 通道 上 
的 一 套 总 线 ， 那 闪存 控制 器 如 何 识别 和 哪个 Die 通 信 呢 ? 答案 是 通过 选 
通信 号 CE# 实 现 。 在 闪存 控制 器 给 特定 地 址 的 内 存 Die 发 读 写 命令 和 数 
据 前 ， 先 选 通 对 应 Die 的 CE# 信 和 号， 然后 进行 读 写 命令 和 数据 的 发 送 。 
一 个 通道 上 可 以 有 多 个 CE，SSD 主 控 一 般 设 计 为 4 一 8 个 ， 对 于 容量 而 言 
选择 有 一 定 的 灵活 度 。 














22 ”SSD 主 控 厂 商 


SSD 主 控 是 一 个 技术 深度 和 市 场 广度 都 很 大 的 忌 片 产品 。SSD 发 展 
初期 主 控 芯 片 玩 家 较 少 ， 原 因 是 设计 和 生产 一 款 新 的 芯片 的 要 求 和 门槛 
较 高 。 如 今 由 于 SSD 的 甘 勃 发 展 ， 配 套 的 主 控 厂 商 看 到 了 发 展 前 景 和 利 
润 空间 ， 纷 纷 切 入 这 个 产品 ，SSD 主 控 初创 公司 如 雨 后 春 算 般 出 现 。 


下 面 介绍 一 下 Marvell 主 控 、 三 星 主 控 和 国内 主 控 的 技术 深度 和 特 














22.1 Marvell 3-42 


Marvell 是 全 球 排 名 第 一 的 HDD 和 SSD 主 控 蕊 片 供 应 商 。2007 年 开始 
在 SSD 控 制 器 领域 进行 布局 ， 于 2008 年 推出 第 一 代 SATA SSD 产 品 
Davinci。 作 为 SSD 主 控 领域 的 老大 ，Marvell 的 SSD 产 品 线 非常 完善 ， 用 
盖 了 高 中 低 端 市 场 ， 产 品 形态 上 包括 了 SOC、ASIC 及 CSSP， 如 图 2-9 所 
Te 


Marvell 目 前 的 主力 产品 包括 主攻 PC 市 场 的 SATA 系 列 
Dean (88SS1074) ， 主 攻 PC、 数 据 中 心 、 云 端 市 场 的 PCIe 系 列 
Eldora (88SS1093/88SS1092) ， 还 有 针对 入 门 级 零售 市 场 、 享 有 创新 
DRAM]less 设 计 的 Artemis 系 列 (88NV1120/88NV1160) 。 


Marvell 公 司 现在 拥有 超过 1400 项 存储 专利 (还 有 大 约 200 项 专利 正 
在 申请 ) 的 强大 知识 产权 组 合 。 和 凭借 在 HDD 和 领域 二 十 多 年 的 产品 经 验 ， 
Marvell 在 低 功 耗 、 高 性 能 设计 、 封 装 、 先 进 制 程 方面 有 了 很 多 的 积累 。 
Marvell 的 主 控 技 术 均 领先 竞争 对 手 两 到 三 代 〈 见 图 2-10) 。 无 论 是 
2D/3D MLC 还 是 2D/3D TLC， 也 无 论 是 SATA 还 是 PCIe 接 口 形式 ， 
Marvell 都 占有 建树 。 且 Marvell 与 客户 的 关系 好 ， 合 作 伙 伴 包 括 金 士 
Wi, LiteOn, Micron. Toshiba. Seagate. Sandisk. TX JÈ. K% EM 
际 国内 大 三 ， 持 续 引 领 着 行业 技术 的 变革 与 创新 。 








SSD Portfolio Serves Entire Market 


] Covering All Market Segments [ 


Client Enterprise Data Center 


Flexible Business Model 
Full Turnkey (FTK) JSW Development Kit (SDK 
~e ASIC 
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图 2-9 ”Marvell SSD 产 品 线 





覆盖 零售 、 客 户 端 、 企 业 级 及 数据 中 心 市 场 


2" Gen PCIe 3* Gen PCle 4" Gen PCle 
回 
2010-2011 2012-2013 2013-2014 2015-2016 
Plato Brighton Alta Eldora 
* Single Dragonite * Dual Dragonite (2 400Mhz 。 Dual Cortex R4 (2 400Mhz 。 Triple Cortex R5 @ 500 
* PCIe Gen? x 1 (5Gbps) * PCIe Gen2 x2(10Gbps) — * PCIe Gen2 x 4 (20Gbps) Mhz 
* AHCI * AHCI * AHCI * PCIe Gen3 x 4 (40Gbps) 
* 4CH x ACE * 8CH x 4CE * 8CH x ACE * AHCUNVMe 
* ONFI2 .2/Togglel (2200 * ONFI 3.0/Toggle2(2400 * ONFI 3.0/Toggle2(2400 * 8CH x 8CE 
MB/s MB/s MB/s * ONFI 3.2/Toggle2 (à) 
* Strong BCH * Strong BCH * BCH2 level ECC 533MB/s 
* 65nm * 55nm * 40nm LPM * LDPC Gen3 
* 12 x 12mm package * 17x 17mm package * 17x 17mm package * 280m HPM 
* 17x 17mm package 
1* Gen SATA 2% Gen SATA 3" Gen SATA 4^ Gen SATA 5^ Gen SATA 
ia 
2008 2009-2010 2011-2012 2013-2014 2015-2016 
Davinci Van Gogh Monet Renoir Dean 
* Dual Dragonite @ * Dual Dragonite @ 250Mhz 。 Dual Dragonite (2 400Mhz * Dual Dragonite (à 400 * Dual Dragonite @ 400 
200Mhz * SATA Ill 6Gb/s * SATA Ill 6Gb/s Mhz Mhz 
* SATA J| 3Gb/s * SCH x 4CE * 8CH x 4CE * SATA | 6Gb/s * SATA Ill 6Gb/s 
* 8CH x 4ACE * ONFI 2.l/Togglel @ 133 * ONFI 22/Togglel (2 166 * SCHx 4CE * 4CH x 8CE 
* ONFI 2.0/Togglel MB/s MB/s * ONFI 3.0/Toggle2 (à 400 * ONFI 3.2/Toggle2 (à 
(à) 100MB/s * Strong BCH * BCH2 level ECC MB/s 533MB/s 
* BCH15 * 65nm * 55nm * BCH2 level ECC * LDPC Gen3 
* 90nm * 17 x 17mm package * 17 x 17mm package * 55nm * 280m LP 


* 17x 17mm package * 17 x 17mm package * 11 x 13.5mm package 


图 2-10 Marvell 已 推出 五 代 SATA SSD 产 品 以 及 第 四 代 PCIe SSD 主 控 产 
HO 


HH 


Marvell 在 高 端 SoC 设 计 上 处 于 领先 地 位 ，Marvell 通 过 复杂 的 SoC 架 
构 、 领 先 的 纠 错 机 制 、 接 口技 术 、 低 功 耗 等 多 项 优势 建立 起 领先 竞争 对 
手 的 技术 壁垒 : 


1) Marvell 专 有 的 NANDEdge 技 术 。 这 种 LDPC〈 低 密度 奇偶 校 
验 ) 纠 错 机 制 是 目前 业界 任何 其 他 功能 所 无 法 比拟 的 技术 ，Marvell 公 司 
所 有 最 新 的 SATA、SAS 和 NVMe 的 SSD 控 制 器 都 采用 了 该 技术 。 
NANDEdge 技 术 适 用 于 传统 平面 型 和 新 兴 3D 堆 车 三 阶 存储 单元 
CTLC) ， 以 及 四 阶 存储 单元 (QLC) NAND SSD， 能 够 确保 实现 最 高 
的 耐用 性 、 可 靠 性 和 数据 完整 性 ， 并 延长 SSD 的 使 用 寿命 。 目 前 Marvell 


LDPC RIAR CARET 28 — fe 


2) 可 扩展 、 可 延续 的 开发 架构 。 Marvell Artemis 系 列 主 控 ， 是 全 
球 第 一 个 支持 PCIe NVMe 的 不 需要 DRAM 缓 存 的 SSD 主 探 方案 ， 并 支持 
Host Memory Buffer (HMB) 特性 。 


3) 特性 丰富 的 SDK。 Marvel 为 合作 伙伴 提供 了 完善 的 SDK 开 发 工 
有 具 ， 不 仅 能 加 快 上 市 时 间 ， 还 能 让 合作 伙伴 有 和 条件、 有 精力 将 自己 的 软 
je 队 用 于 开发 能 体现 差异 化 或 自身 优势 的 方面 ， 从 而 实现 差异 化 竞 


4) 全 产品 线 转 癌 16nm 工 艺 。 Marvell 在 业界 率先 使 用 28nm 工 艺 ， 
而 其 他 不 少 友 商 还 停留 在 40nm 甚 至 55nm。 未 来 Marvell 全 产品 线 将 转向 
16nm 工 艺 ， 产 品 的 尺寸 会 更 小 ， 功 耗 也 将 更 低 。 


Leveraging HDD Competencies in SSD 


Complex SoC Architecture 
Advanced Error Correction Code 
Interface Technologies 
Integrated Designs 
Low-Power Digital Designs 
Security Firmware 
Error Recovery Algorithms 
Packaging and Thermal Design 
Customer Relationships 
Advanced Process Nodes 


>20 Years of Storage Know-how 





图 2-11 Marvell f HDD MER E RIR A EE E SSDH hasr” im rp 


无 论 在 口碑 上 还 是 销量 上 ，Marvell 主 探 一 直 是 市 场 的 佼佼 者 。 其 
H, 88SS1074SATA SSD 控 制 器 在 短 短 18 个 月 内 的 出 贷 量 已 超过 5000 
万 ， 年 同比 增长 385%。Artemis 系 列 产 品 88NV1140 在 CES 2016 国 际 消费 
电子 展 上 亦 获得 了 Visions award。 而 最 新 的 88NV1160DRAM-less SSD 控 
制 器 则 在 美国 ACE 2017 膛 辑 /接口 /存储 器 产品 类 别 评选 中 摘 得 大 奖 。 


222 三星 主 控 


三 星 的 主 控 基 本 上 都 是 三 星 自 己 的 SSD 在 用 ，830 系 列 使 用 是 MCX 
主 控 ， 而 840 及 840Pro 使 用 的 则 是 MDX 主 控 ，850Pro/840EVO 用 的 是 
MEX 主 控 ，850EVO 500GB 以 下 的 和 750EVO 用 的 是 MGX 主 控 ，650 用 
的 是 MFX 主 控 ， 如 图 2-12 所 示 。 








图 2-12 ”三星 主 控 芯片 


MCX 是 200MHz 的 三 核 ARM 9 核心 ， 缓 存 容量 256MB; MDX 的 核 
心 则 换 成 300MHz 的 三 核 Coretex-R4 处 理 器 ， 绥 存 容量 512MB; MEX 则 
是 把 频率 提升 至 400MHz， 并 且 加 入 了 TurboWrite 技 术 的 支持 ， 绥 存 容 
量 1GB。 至 于 MGX 和 MEFX 主 控 ， 目 前 可 以 知道 的 是 MGX 是 一 个 双核 主 
控 ， 而 且 三 星 优 化 了 低 容 量 下 的 随机 性 能 ， 而 MFX 可 能 是 一 颗 4 通 道 主 


控 。 


2.23. 国产 主 控 ， 谁 主 沉浮 


常见 的 台 系 主 控 包 括 智 微 (JMicron) . ÆR (Silicon Motion) 和 
群 联 (Phison) 三 家 公司 的 主 控 。 它 们 成 本 低廉 ， 相 当 受 SSD 厂 家 欢 
迎 ， 现 在 有 相当 多 的 SSD 在 用 这 三 家 的 主 控 。 不 过 近年 来 ，JMicron 的 产 
品 已 经 渐渐 淡出 市 场 了 ， 这 里 痢 重 介绍 慧 荣 和 和 群 联 两 家 的 主 控 。 


LARE 


SURR£H€ (SMI) 为 全 球 闪 存 控制 芯片 及 专业 射频 IC 的 市 场 先 驱 及 
技术 领导 者 ， 慧 荣 从 2000 年 开始 提供 记忆 卡 用 的 闪存 控制 芯片 ， 一 路 走 
来 ， 从 CF、SD、USB， 到 进入 手机 用 的 磐 入 式 内 存 必 片 eMMC/UFS 及 
固态 硬盘 主 控 芯 片 ， 在 每 个 领域 都 可 说 是 闪存 主 控 必 片 的 龙头 厂商 ， 至 
今 已 经 出 货 超 过 50 亿 颗 闪 存 控制 芯片 及 超过 1 亿 颗 SSD 固 态 硬 盘 主 控 必 
片 。 











SMI 长 期 与 全 球 主要 闪存 大 三 合作 ， 无 论 是 Samsung、Toshiba、 
WD/Sandisk、SKhynix、Micron 还 是 Intel，SMI 都 为 其 提供 了 全 面 性 主 
控 蕊 片 解决 方案 。 借 由 与 内 存 大 厂 的 合作 关系 ，SMI 可 以 在 更 早期 以 主 
控 厂 丙 的 映 份 提供 、 回 馈 给 内存 厂 丙 技术 方案 ， 可 以 提前 了 解 NAND 的 
发 展 趋势 ， 从 而 及 早 设 计 对 应 的 主 控 及 固件 。 近 年 来 ， 英 特 尔 消费 性 
SSD 也 开始 全 面 使 用 SMI 的 主 控 必 片 ， 这 证 明 SMI 的 SSD 主 控 必 片 质量 
是 世界 一 流水 平 的 。 近 期 Crucial 所 发 表 的 MX500 即 是 采用 SMI 的 
SM2258H 主 控 芯 片 ， 其 上 搭配 了 Micron 64 层 的 TLC， 证 明 SMI 这 几 年 
SSD 的 领先 技术 已 经 获得 国际 大 三 与 消费 者 的 认同 。 


慧 荣 提 供 一 系列 固态 硬盘 主 控 忆 片 〈 见 图 2-13) , SC REPRE EAT 
存 大 厂 的 MLC、TLC 及 SLC 闪 存 ， 其 应 用 范畴 宫 括 个 人 计算 机 、 消 费 性 
电子 品 、 工 业 计 算 机 与 其 他 相关 应 用 ; 同时 文 持 最 先进 的 安全 协议 ; 文 
{FAES 128/256, TCG Opal Full-Drive 等 加 密 机 制 |。 





SMI 3D NAND 产 品 路 丝 图 
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图 2-13” ”SMI 主要 SSD 控 制 器 产品 











SMI 和 凭借 厦 多 年 来 开发 内 存 相关 主 控 拉 术 的 积累 ， 在 SSD 主 控 上 面 
发 展 出 几 项 竞争 优势 : 


客 制 化 的 交 匙 《〈Turnkey) 方案 : SMI 在 固态 硬盘 主 控 芯 片上 的 主 
要 优势 在 于 ， 能 够 提供 从 主 控 心 片 到 固件 方案 ， 再 到 电路 板 设计 、 内 存 
颗粒 的 配对 等 一 整套 固态 人 硬盘 的 解决 方案 ， 还 能 够 根据 采购 厂商 的 个 性 
化 需求 进行 定制 化 的 服务 。 芒 有 提 供 的 一 站 式 服 务 ， 能 够 充分 发 挥 主 控 
心 片 与 固件 方案 紧密 结合 的 优势 ， 实 现 最 大 效能 与 最 小 功 耗 。 


:NANDExtend 专 家 ECC 纠 错 方案 : NANDExtend 是 SMI 结 合 LDPC 及 
多 项 SMI 专 利 的 纠 错 技术 ， 可 延长 内 存 使 用 寿命 高 达 3 倍 。NANDExtend 
可 以 应 用 于 MLC、TLC 及 QLC 等 不 同 存 办 。SMI 从 2009 年 就 开始 致力 于 
LDPC 纠 错 技 术 ， 并 且 多 次 在 国际 会 议 上 发 布 相关 技术 ， 目 前 已 开发 至 
第 四 代 的 LDPC 纠 错 技术 。 


.自制 的 物理 层 (Physical layer, PHY) 接口 技术 : SATA 与 PCle 
SSD 都 需要 用 物理 层 来 传输 数据 ， 有 了 自制 的 PHY， 才 能 快速 跟 未 来 新 
的 接口 接轨 并 使 用 更 新 的 半导体 制程 技术 。 从 产品 路 线 图 上 来 看 ，SMI 
在 2018 年 发 表 的 PCIe Gen3x4SSD 主 控 上 面 已 经 全 面 转向 28nm，PCIe 
4 更 会 使 用 12nm， 是 目前 能 看 到 的 第 一 个 会 使 用 12nm 的 SSD 主 控 厂 


苇 采 虽然 在 SSD 起 步 比 其 他 主 控 公司 来 得 晚 ， 但 和 凭借 过 去 多 年 在 各 























类 闪存 主 控 上 的 技术 开发 积累 ， 这 三 年 来 在 SSD 方 面 飞快 成 长 ， 一 站 式 
的 方案 更 帮助 了 国内 外 许多 自 有 品牌 SSD 制 造 商 快速 向 终端 市 场 推出 极 
具 技 术 竞争 力 的 产品 。 除 了 原本 的 SATA SSD 主 控 外 ，2017 年 更 一 次 推 
出 三 颗 第 二 代 PCIe Gen3x4 的 主 控 芯 片 。2017 年 在 深圳 举行 的 闪存 市 场 
高 峰会 上 ，SMI 也 表示 除了 消费 性 SSD 以 外 ， 他 们 也 即将 进军 企业 级 的 
SSD 主 控 以 及 软件 定义 存储 (Software Defined Storage) 的 市 场 ， 持 续 
扩大 他 们 在 固态 存储 方面 的 影响 力 。 


2. 群 联 主 控 


群 联 电子 于 2000 年 11 月 成 立 。 从 提供 全 球 首 颗 单 心 户 U 盘 控制 必 睫 
起 家 ， 群 联 目 前 已 经 成 为 U 盘 、SD 存 储 卡 、eMMC、UFS、PATA 与 
SATA 固 态 便 盘 等 控制 公 片 领域 的 领头 者 。 群 联 是 ONFI (Open NAND 
2 Interface〉 的 创始 人 之 一 ， 同 时 也 是 SD 协会 的 董事 。 群 联 主 控 如 

2-2 所 示 。 





表 2-2 HEFIR 


控制 器 型 号 


PS3107-S7 


PS3108-S8 


PS3109-S9 


PS3110-S10 


PS3111-S11 


| Hu | DRAM 。 | 最 大 支持 容量 | 通道 | AES 支 持 | 特色 


* BCH ECC 
] * SmartRefresh 7M 

SATAII Optional 256GB - No 

* SmartFlush 7M 

* GuaranteedFlush 7M 

* BCH ECC 

* SmartRefresh 7M 
SATAIII DDR3 PS3108-AS8 |*SmartFlush ™ 

* GuaranteedFlush 7M 

* XH DEVSLP 

* BCH ECC 

* SmartRefresh 7M 
SATA III LPSDR 256GB PS3109-A9 |*SmartFlush 7M 

* GuaranteedFlush 7M 

* Xj DEVSLP 


。 端 到 端 数据 保护 

* SmartECC ™ 

* SmartRefresh 7M 
SATA III DDR3/DDR3L |2TB PS3110-A10 | * SmartFlush 7M 

* GuaranteedFlush 7M 

* 1$ DEVSLP 

。 支 持 TLC Flash 

* LDPC 

*。 端 到 端 数据 保护 

* SmartECC 7M 

* SmartRefresh 7M 

* SmartFlush 7M 
SATA III DRAM-less 1TB 2 No 

* GuaranteedFlush 7M 

* SmartZIP 7M 

* $jjDEVSLP 

* 支持 TLC 

。 支 持 3D 闪存 


(5E) 











eamus | xn st 
* NVMel.1b 
* PCIe3.0 
* 3$ 3 GS URP 
* SmartECC 7M 
PS5007-E7 PCIe Gen3 x 4 | DDR3L PS5007-A7 |* SmartRefresh ™ 


* SmartFlush 7M 

* GuaranteedFlush 7M 
: X $$ TLC 

* ZF L12 模式 

* NVMel.2 

* PCIExpress Rev.3.1 
*。 端 到 端 数据 保护 

* StrongECC 

* SmartECC TM 

* SmartRefresh 7M 
YES * SmartFlush 7M 

* GuaranteedFlush 7M 
* €1$ MLC/TLC/3D 闪存 
。 支 持 L1.2 模 

* Single Root IO 

* Virtualization 








E8: 
DDR3&DDR3L 
EST: 
DRAM-Less 


PS5008-ES/EST | PCIe Gen3 x2 





* Pyrite 


群 联 主 控 ， 因 其 中 流 的 产品 性 能 、 低 廉 的 价格 以 及 全 面 的 服务 ， 和 
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以 上 与 控制 器 相关 的 信息 来 自 群 联 官网 : http:/www.phison.com 。 
3. 其 他 国产 主 控 

固态 便 盘 市 场 近 几 年 红 得 发 紫 ， 品 牌 商 、 代 工厂 、 芯 请 设计 公司 各 
显 神通 ， 都 期 望 在 这 个 市 场 分 一 杯 北 。 那 我 们 束 来 返 一 抒 国 内 其 他 地 区 
自主 SSD 必 片 设计 公司 ， 看 谁 有 可 能 冯 出 一 片 天 地 。 

海 思 之 无 疑问 是 很 强 的 ， 不 过 它 的 蕊 片 只 给 华为 用 ， 所 以 就 不 列 为 
讨论 对 象 。 剩 下 的 就 是 记忆 科技 、 湖 南国 科 微 、 杭 州 华 澜 微 ， 其 他 还 有 
很 多 正在 做 的 ， 但 应 该 还 没有 做 出 正式 蕊 片 。 


记忆 人 靠 着 联想 的 关系 ， 在 内 存 市 场 做 大 ， 看 到 SSD 在 PC 市 场 有 前 











景 ， 很 早 就 切入 到 SSD 领 域 。 记 忆 理 想 远大 ， 所 以 组 建 团队 做 SSD 芯 
片 。 切 入 的 时 间 点 很 好 ， 同 时 经 过 四 五 年 的 努力 ， 已 经 出 了 一 款 SATA 
控制 器 ， 性 能 还 不 错 ， 可 靠 性 若 可 以 再 完善 ， 那 么 就 有 希望 把 主 控 用 在 
自己 的 SSD 上 。 拥 有 自己 的 主 控 后 就 具备 了 和 其 他 主 控 讨价还价 的 能 

力 ， 海 思 在 早期 就 是 华为 用 来 和 外 资 芯片 议价 的 工具 。 


国 科 微 在 2016 年 1 月 发 布 了 首 款 主 控 GK2101， 其 采用 40nm 工 艺 ， 
支持 SATA/NVMe/AHCI、8 通 道内 存 和 LDPC， 这 算是 比较 领先 的 了 。 
尽管 PCIle 只 有 GEN2X4， 不 过 相信 他 们 下 一 代 很 快 就 会 赶 上 。 据 说 已 经 
有 客户 开始 测试 ， 估 计 不 久 就 可 以 实现 量 产 。 想 当初 ， 国 科 微 在 卫星 芯 
片 市 场 杀 出 重围 ， 赚 到 第 一 桶 金 ， 在 安防 监控 市 场 表现 也 不 错 ， 又 有 大 
基金 加 持 ， 成 功 IPO 上 市 。 国 科 微 通过 第 一 代 SSD 主 控 在 市 场 学 到 一 些 
经 验 ， 若 能 把 一 些 人 欠缺 的 技术 补 强 ， 还 是 大 有 可 为 的 。 


华 澜 微 最 开始 是 做 SD/MMC 和 TU 盘 控 制 器 的 ， 在 2016 年 年 初 收 购 了 
唱 量 半导体 ， 所 以 也 拥有 了 桥接 芯片 产品 线 。 其 在 接口 方面 的 竞争 优势 
比较 大 ， 但 目前 看 到 的 PCIe 产 品 还 是 GEN2。 可 能 是 为 了 充分 发 挥 自己 
桥接 的 优势 ， 他 们 的 主 控 和 一 般 主 控 不 同 ， 采 用 类 似 桥接 的 方式 ， 通 过 
SATA 转 eMMC 等 来 拼 成 一 个 SSD， 这 样 主 控 就 不 需要 FTL， 开 发 难度 会 
降低 。 不 过 鱼 与 能 掌 不 可 兼 得 ， 拼 接 也 有 可 能 会 影响 性 能 和 寿命 。 但 是 
也 不 是 什么 大 问题 ， 毕 况 性 能 可 通过 上 层 算法 优化 ， 而 且 一 般 来 讲 ， 用 
户 对 性 能 要 求 并 不 是 非常 高 ; 寿命 可 以 通过 RAID 方 式 来 补 强 ， 只 要 控 
制 好 整体 成 本 就 是 好 方案 。 


前 面 讲 的 都 已 经 做 出 了 产品 的 厂商 ， 后 面 束 讲 讲 正在 做 产品 的 三 
商 。 虽 说 先发制人 ,但 是 已 片 设计 是 马拉松 苋 赛 ， 后 发 未 必 制 于 人 ， 还 
^ n] ü&^b 3E — E695 yit. 


2016 年 12 月 27 日 ， 北 京 得 瑞 领 新 科 拉 有 限 公 司 (DERA) 宣布 推出 
自主 研发 的 TAI 控制 器 。 支 持 NVMe 1.2 标 准 及 PCIe 3.0 接 口 ，4KB 随 机 
写 IOPS 可 以 达到 500k， 而 4KB 随 机 读 更 是 可 以 达到 1250k IOPS， 顺 序 写 
读 分 别 为 4.5GB/s 和 5.1GB/s。 目 前 已 经 成 功 流 片 ， 估 计 正 在 把 产品 弄 稳 
定 。DERA 团 队 人 数 不 多 ， 但 是 不 少 核心 成 员 来 自 最 早 做 SSD 的 SST 公 
ale 0 所 以 能 在 这 么 短 的 时 间 内 设计 出 一 款 高 性 
能 SSD 主 控 。 


忆 必 (Starblaze) 这 个 名 字 可 能 很 多 人 不 熟悉 ， 但 是 说 起 
Memblaze， 大 家 就 都 知道 了 。 忆 芯 团 队 核 心 成 员 来 自 Memblaze，2017 



































EERI, HS SU o0» Hr IBID Use I AR, WARK 
还 是 比较 看 好 他 们 的 前 景 的 。 


浪潮 和 山东 华 忌 半导体 专注 安全 固态 人 硬盘， 他 们 的 SATA SSD 控 制 
器 已 经 通过 国家 密码 局 芯片 测试 。 研 发 团队 由 有 硅谷 背景 的 资深 技术 专 
家 掌舵 ， 相 信 会 大 有 可 为 。 


在 安全 存储 领域 ， 北 京 的 中 总 科技 有 限 公司 也 推出 了 SSD 控 制 蕊 
片 ， 支 持 AES 128/256、TCG Opal Full-Drive 等 加 密 机 制 。 


Greenliant 是 由 原 SST〔( 冠 捷 半 导体 ) 创始 人 Bing Yeh 创 立 的 一 家 快 
速成 长 的 存储 芯片、 系统 和 方案 提供 商 。 公 司 前 映 为 SST， 其 核心 技术 
员工 及 管理 层 均 来 自 SST 的 研发 和 市 场 部 门 。SST 在 2000 年 开始 做 BGA 
SSD，2010 年 把 SSD 业 务 卖 给 Greenliant， 同 年 ，Microchip 收 购 SST。 


硅 格 ， 成 立 于 2007 年 ， 在 闪存 存储 领域 摸 爬 滩 打 近 十 年 ， 也 算是 小 
有 成 绩 。 在 2017 年 深圳 举行 的 中 国内 存 市 场 峰会 上 ， 硅 格 半 导体 总 经 理 
吴 大 月 先生 表示 ，10 多 年 来 ， 硅 格 累 计 出 货 数 亿 颗 eMMC 探 制 希 等 心 
片 。 在 SSD 领 域 ， 尽 管 起 步 稍 晚 ， 但 SATA 的 控制 器 很 快 就 会 面市 。 


威盛 在 北京 的 团队 也 从 事 SSD 主 控 必 片 研发 ， 产 品 接口 从 SATA 到 
PCIe 3.0 都 有 ， 支 持 TLC 闪 存 和 LDPC 纠 错 。 


联 委 ， 总 部 位 于 杭州 ， 在 台湾 也 有 团队 。 它 的 前 身 是 JMicron， 
台湾 不 背 开放 心 片 设计 业 ， 索 性 把 人 台湾 的 部 门 解散 ， 到 杭州 来 注册 公 
司 ， 成 为 目 主 品牌 ， 以 后 会 慢 慢 看 不 到 智 微 的 控制 器 了 。 以 JMicron 在 
SSD 领 域 这 么 多 年 的 积累 ， 技 术 起 点 会 高 不 少 ， 但 是 关键 要 看 老板 想 怎 
么 玩 ， 炬 力 束 是 前 车 之 鉴 。 只 要 能 让 员工 也 能 分 享 到 公司 发 展 的 好 处 ， 
就 有 机 会 发 展 起 来 。 


Phison 在 合肥 成 立 了 兆 蕊 ， 希 望 能 落地 开花 。 


还 有 一 个 大 玩家 是 兆 易 创新 ， 其 上 市 之 后 ， 闪 电 买 下 忆 正 武汉 SSD 
工厂 。2016 年 4 月 新 成 立 子 公司 上 海 守 禹 电子 信息 技术 有 限 公 司 ， 引 入 
国内 业界 顶尖 的 技术 团队 ， 主 要 成 员 来 自 SSD 控 制 器 的 传奇 公司 
SandForce， 专 注 于 SSD 研 发 。 如 果 武 汉 长 江 存 储 的 3D 闪 存 能 如 期 量 
产 ， 以 他 们 之 前 的 合作 关系 ， 应 该 是 最 容易 拿 到 颗粒 的 。 这 样品 牌 和 颗 
粒 都 有 了 ， 不 做 SSD 控 制 器 就 说 不 过 去 了 。 
































深圳 的 新 创 SSD 控 制 硕 公司 大 普 微 电 子 也 是 后 起 之 秀 ， 他 们 得 到 了 
深圳 市 的 大 力 文 持 ， 同 时 产品 支持 人 工 智能 等 功能 ， 很 有 特色 。 


国内 还 有 不 少 知名 SSD 厂 商 的 部 分 产品 采用 FPGA 控 制 右 方案 ， 比 
如 方 一 信息 科技 、 宝 存 科 技 等 。 这 些 公 司 发 展 如何 ， 还 需要 三 五 年 后 才 
能 看 出 水 平 ， 但 是 只 要 能 耐 得 住 寂 宽 ， 坚 持 打 磨 产品 ， 再 配 上 良好 的 激 
励 机 制 ， 还 是 很 有 可 能 成 功 的 。 











2.3 案例: TEK (SiliconGo) SG9081 主 控 


本 节 以 国产 主 控 厂 商 硅 格 的 SATA3.2SSD 主 控 SG9081 为 例 ， 谢 析 一 
下 主 控 如 何 实现 高 性 能 。 


图 2-14 为 SG9081 主 控 的 结构 框图 。 
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图 2-14 SG9081 主 控 的 结构 框图 
1.HAM+GoCache 加 速 随机 读 写 的 IOPS 


HAM 是 硬件 加 速 模块 的 简称 ，SSD 主 控 中 除了 MCU 以 外 ， 还 有 一 
个 硬件 加 速 模 块 HAM。 该 模块 将 部 分 算法 处 理 的 动作 硬件 化 ， 一 方面 
释放 了 MCU 的 资源 ， 男 外 一 个 方面 则 加 速 了 算法 的 实现 ， 尤 其 是 对 小 
数据 的 处 理 。 另 外 ， 主 控 中 集成 了 GoCache (SiliconGo 独 有 技术 ) ， 可 
高 效 地 实现 映射 关系 的 管理 ， 从 而 更 高 效 地 提高 对 小 数据 的 传输 能 力 。 
两 者 的 结合 实现 了 SSD 成 品 模 组 性 能 的 提升 。 


2.DMAC 加 速 顺序 读 写 





DMAC 是 Direct Memory Access Controller 的 缩写 。 该 模块 的 存在 使 
得 SSD 在 进行 连续 大 数据 传输 的 时 候 ， 不 用 一 直 占 据 MCU 的 资源 。 当 
DMA 请 求 被 发 起 时 ， 内 部 总 线 裁决 逻辑 将 交 由 DMAC 控 制 ， 接 着 数据 
高 速 传输 动作 开启 。 传 输 过 程 中 ，MCU 可 以 去 处 理 其 他 的 事务 ， 而 当 
数据 传输 结束 之 后 ，DMAC 又 会 将 总 线 让 给 MCU。 在 这 样 的 机 制 保证 
0 从 而 表现 出 优秀 的 顺序 读 
t3 TERE 


3.LDPC+RAID 提 高 可 靠 性 ， 增 强 闪 存 耐 入 度 和 数据 留存 能 


目前 闪存 正 从 2D 转 向 3D 架 构 ， 对 闪存 纠 错 处 理 的 要 求 也 越 来 越 
高 ， 早 期 的 BCH 已 经 无 法 满足 先进 制程 或 先进 工艺 的 内 存 。SG9081 主 
控 采 用 LDPC 实 现 ECC，LDPC 码 在 相同 的 用 户 数 据 条 件 下 ， 与 BCH 校 验 
码 相 比 能 纠正 更 多 的 错误 ， 同 时 也 增强 了 闪存 的 使 用 寿命 。 而 RAID 功 
能 的 引进 则 给 数据 保护 加 上 了 一 个 双 保 险 。 主 控 中 的 RAID 功 能 可 以 理 
解 为 给 数据 做 了 一 层 校 验 保护 ， 必 要 的 时 候 可 以 通过 校 验 的 内 容 恢复 为 
原始 数据 。LDPC 和 RAID 功 能 大 大 地 提高 了 数据 的 稳定 性 。 


24 案例 ， 企 业 级 和 消费 级 主 控 需 求 的 归 一 化 设计 


SSD 有 企业 级 与 消费 级 之 分 。 企 业 级 SSD 产 品 更 加 注重 随机 性 能 、 
延迟 、IO QoS 的 保证 及 稳定 性 ， 而 消费 级 产品 则 更 加 注重 顺序 性 能 、 
耗 、 价 格 等 ， 如 表 2-3 所 示 。 


表 2-3 企业 级 和 消费 级 SSD 对 比 


性 能 随机 敏感 顺序 敏感 1975 
生命 周期 功 耗 (控制 器 ) <2.5W 
容量 人 ee 


SSD 控 制 器 在 设计 时 需要 为 企业 级 和 消费 级 产品 分 别 优化 ， 这 样 不 
仅 加 大 了 研发 成 本 ， 也 增 大 了 下 游 多 系列 SSD 产 品 开发 的 复杂 上 度 。 


是 合 有 一 球 归 一 化 的 SSD 控 制 姻 ， 能 同时 满足 企业 级 和 消费 级 需 
主要 的 问题 在 于 能 否 在 控制 占 人 硬件 架构 上 实现 成 本 、 功 耗 和 功能 的 


D 成 本 方面 ， 企 业 级 SSD 对 控制 器 成 本 较 不 敏感 ， 归 一 化 SSD 控 制 
器 需要 着 重 满足 消费 级 SSD 的 成 本 预算 。 采 用 通用 硬件 架构 并 优化 硬件 
资源 开销 来 约束 SSD 控 制 器 成 本 ， 通 过 差异 化 固件 来 满足 企业 级 与 消费 
级 产品 的 不 同性 能 需求 。 


20 在 性 能 方面 ， 经 过 市 场 沉淀 ，NVMeU.2 形 态 与 M.2 形 态 的 SSD 
逐渐 成 为 主流 ， 两 种 形态 的 SSD 产 品 性 能 需求 也 趋 于 一 致 。 作 为 AIC 形 
态 的 取代 品 ，1U 服 务 器 普遍 承载 8 块 或 更 多 U.2 形 态 SSD， 使 得 U.2 形 态 
SSD 单 盘 4KB 随 机 性 能 在 300~400KIOPS， 这 已 能 满足 大 部 分 应 用 需 
求 。 反 观 消费 级 SSD 市 场 ， 高 端 游戏 平台 NVMe M.2 形 态 的 SSD 理 论 上 
性 能 已 达 3.5GB/s， 这 样 的 性 能 指标 已 与 一 些 企业 级 SSD 的 顺序 IO 相近 。 
一 些 互联 网 厂商 已 在 IDC 数 据 中 心中 应 用 M.2 形 态 的 SSD 。 在 数据 中 心 ， 
上 层 对 数据 流 做 了 大 量 优化 ， 数 据 以 顺序 访问 方式 写 入 SSD， 这 降低 了 
对 企业 级 SSD 随 机 性 能 的 需求 。 


3) 在 寿命 上 ， 企 业 级 与 消费 级 SSD 需 求 差别 较 大 。 但 影响 SSD 寿 命 
的 主要 因素 在 于 闪存 的 耐久 能 力 。SSD 控 制 器 则 确保 加 强 对 闪存 的 纠 错 
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的 。 


4) 在 容量 上 ， 企 业 级 SSD 与 消费 级 SSD 差 异 较 大 。SSD 控 制 器 需要 
以 比较 小 的 代价 支持 大 容量 闪存 ， 以 便 同 时 履 盖 企业 级 与 消费 级 SSD 的 


5) 可 靠 性 方面 ， 企 业 级 SSD 一 般 要 求 EFCC 与 DIE-RAID 两 层 数据 保 
护 能 力 。 而 随 着 3D 闪 存 逐 步 普 及 ， 闪 存 厂商 开始 建议 在 消费 级 SSD 上 提 
供 DIE-RAID 能 力 。 所 以 在 可 靠 性 方面 ， 企 业 级 与 消费 级 SSD 控 制 器 的 
设计 目标 也 趋 于 一 致 了 。 


6) 在 功 耗 方面 ， 消 费 级 产品 对 功 耗 最 为 敏感 ， 特 别 是 像 平板 、 笔 
记 本 电脑 这 种 电池 供电 设备 ， 对 功 耗 有 产 格 的 限制 。 SSD 控 制 器 在 设计 
时 需要 考虑 复杂 的 低 功 耗 需求 ， 需 要 文 持 多 种 电源 状态 ， 以 及 快速 唤 
醒 。 企 业 级 SSD 对 功 耗 相对 不 敏感 。 然 而 对 于 整个 数据 中 心 ， 电 力 成 本 
已 占 数据 中 心 运 营 成 本 近 20%。 随 着 SSD 的 大 规模 部 署 ， 低 功 耗 设计 也 
成 为 企业 级 SSD 控 制 器 的 追求 目标 。 


从 上 面 几 点 不 难看 出 ， 在 企业 级 与 消费 级 SSD 设 计 指 标 趋 于 一 致 的 
趋势 下 ， 人 硬件 规格 实现 统一 是 极 有 可 能 的 。 而 SSD 产 品 形态 的 差异 化 则 
由 SSD 控 制 器 上 的 固件 体现 。 忆 必 科 技 的 STAR1000 心 片 在 设计 中 对 此 
做 了 比较 成 功 的 尝试 ， 如 图 2-15 所 示 。 


STAR1000 性 能 指标 与 关键 技术 


。 软 件 定义 架构 

。SMP 多 核 CPU 

。 国 件 升 级 支持 最 新 NVMe 协议 
。 微 码 升 级 支持 新 型 NAND 闪存 
。 数 据 保护 与 错误 处 理 

。 数 据 通路 端 到 端 保护 
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图 2-15 ”STAR1000 关 键 技术 


STAR1000 固 态 硬 盘 控制 器 采用 SMP 架 构 ， 极 大 程度 保留 了 硬件 扩 
展 性 和 软件 灵活 性 ， 便 于 多 种 存储 硬件 加 速 模块 的 集成 ， 降 低 了 固件 开 












发 的 复杂 度 ， 对 实时 OS 有 天 然 的 良好 支持 。 


可 靠 性 方面 ， 对 片上 SRAM、 片 外 DRAM 与 数据 通路 都 可 进行 错误 
校 验 ， 满 足 了 企业 级 要 求 ;， 用 极 小 代价 实现 了 RAID5/6 保 护 机 制 ， 特 别 
是 通过 RAID 的 校 验 RAM 和 片上 SRAM 共 享 设计 ， 既 能 满足 企业 级 SSD 
要 求 ， 也 能 在 某 些 消费 级 产品 不 需要 RAID 机 制 时 ， 将 SRAM 让 给 固件 
做 其 他 事情 ， 极 大 提升 了 资源 利用 率 。 


NVMe F £&5t X H]28132 LIN SX CPUS BEN V MeIOfRE £F JI 28 77 
案 ， 特 别 适 合 低 功 耗 实现 消费 级 SSD 的 基础 IO 性 能 要 求 ， 同 时 满足 了 企 
业 级 应 用 中 对 队列 调度 策略 、 高 性 能 SGL 实 现 、 原 子 操作 、HMB/CMB 
支持 等 特性 ， 此 外 还 支持 多 VE 的 SRIOV。 


2.5 Køl: DERA CUm SU NVMeidzml2sTAI 
和 NVMe SSD 产 品 


NVMe 协 议 面 向 现代 多 核 计 算 系 统 结构 设计 ， 充 分 发 挥 NVM 介 质 高 
并 发 及 低 延 迟 的 特性 ， 为 实现 高 吞吐 量 、 低 延迟 的 存储 设备 打下 了 和 良好 
的 生态 基础 。DERA Storage 遵 循 协议 标准 ， 面 向 企业 计算 市 场 ， 开 发 提 
供 高 性 能 、 高 可 靠 的 NVMe SSD 解 决 方案 。 


控制 器 是 NVMe SSD 的 核心 部 件 ， 是 连接 主机 总 线 和 闪存 单元 的 桥 
梁 。 本 质 上 ， 一 个 NVMe SSD 设 备 内 部 需要 处 理 高 并 发 的 大 量 IO 事务 ， 
每 个 IO 事务 都 伴随 多 种 硬件 操作 和 事件 处 理 ， 其 中 一 些 功能 特性 需要 结 
合计 算 密 集 型 的 操作 ， 比 如 用 于 数据 错误 检测 的 编 解码 ， 或 者 数据 加 
密 、 解 密 ， 在 完成 这 些 处 理 的 同时 还 要 满足 苛刻 的 功 耗 要 求 ， 因 此 不 可 
避免 地 需要 使 用 专用 的 硬件 加 速 单元 。 综 合 考虑 ，NVMe SSD 控 制 器 一 
般 是 紧密 结合 NAND 内 存 管 理 软 件 进行 高 度 定 制 化 设计 的 ASIC (专用 集 
成 电路 ) 。 只 有 将 数据 通路 、 计 算 资 源 都 经 过 合理 安排 调配 ， 最 终 实现 
SSD 才 能 在 可 靠 性 、 性 能 、 功 耗 几 个 方面 实现 良好 统一 的 目 
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DERA NVMe 控 制 器 是 DERA NVMe SSD 产 品 的 核心 部 件 ，TAI 是 
DERA 的 第 一 款 控制 器 〈 见 图 2-16) > DERA TAI 前 端 支 持 PCIe Gen3x8 
或 4 接口 ， 集 成 多 个 NAND 接 口 通道 和 高 强度 ECC 硬 件 编 解 码 单元 ， 所 
有 数据 通道 均 运用 ECC 和 CRC 多 重 硬 件 保护 机 制 。 在 TAI 控制 器 基础 
上 ， 紧 密 协 同 设计 的 闪存 转换 层 (FTL) 算法 负责 调度 管理 ， 综 合 运 用 
多 种 技术 实现 企业 级 的 数据 存储 可 靠 性 ， 充 分 发 挥 NAND 闪 存 的 高 速 存 
取 特 点 ， 实 现 高 可 靠 、 低 延 时 、 高 吞吐 量 的 数据 存储 要 求 。 


DERA NVMe SSD 定 位 于 企业 级 应 用 ， 因 此 性 能 平稳 度 和 数据 可 靠 
性 是 核心 的 设计 要 点 。 


企业 级 应 用 要 求 存 储 设备 在 稳定 一 致 的 基础 上 具备 高 性 能 和 低 延 迟 
的 特性 。 受 限于 介质 的 基本 工作 原理 ，SSD 需 要 通过 复杂 的 工程 设计 才 
能 避免 出 现 性 能 抖动 、 延 迟 时 间 恶 化 等 负面 表现 。DERA 企 业 级 NVMe 
SSD 充 分 预计 了 高 压力 下 的 极 问 情 况 ， 对 前 端 IO 请 求 和 后 合 行为 进行 精 
细 调 度 和 控制 ， 确 保 在 任何 情况 下 ， 设 备 对 外 呈现 的 性 能 都 能 稳定 在 可 
预测 、 可 接受 的 水 平 。 

















在 数据 可 靠 性 方面 ， DERA 产 品 主要 通过 高 强度 的 硬件 ECC、 故 障 
主动 管理 、 完 整数 据 通 道 校 验 、 挥 电 保 护 、 功 耗 及 温度 自 监控 管理 等 技 
术 设 计 实现 。 
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图 2-16 DERA TAI 控制 器 


内 存 ECC 是 SSD 的 核心 功能 。 为 了 处 理 新 结构 、 新 工艺 节点 下 闪存 
芯片 的 高 原始 误 码 率 ， 以 及 满足 高 并 发 访问 时 的 低 延 迟 要 求 ，DERA 
TAI 控制 器 为 每 个 闪存 通道 都 配备 了 独立 的 ECC 单 元 ， 纠 错 能 力 为 
100b/1KB， 满 足 主流 闪存 器 件 对 主 探 纠 错 能 力 的 要 求 ， 即 在 复杂 度 、 面 
积 和 功 耗 、 解 码 延 迟 时 间 确 定性 和 可 控 性 等 多 个 方面 达到 了 和 良好 的 均 
衡 。 此 外 ，DERA TAI 对 完整 数据 通道 的 ECC 保 护 和 CRC 校 验 ， 也 在 不 
影响 性 能 的 前 提 下 为 数据 可 靠 性 提供 了 进一步 的 基础 保障 。 


闪存 存储 单元 在 形成 严重 错误 之 前 会 表现 为 误 码 率 的 渐进 式 提 高 。 
DERA SSD 在 充分 掌握 闪存 器 件 全 生命 周期 特性 的 基础 上 ， 在 运行 过 程 
中 根据 页 面 原始 误 码 率 的 变化 ， 实 现 对 故障 单元 的 主动 判定 及 预防 性 的 
管理 策略 ， 在 最 大 化 有 效 使 用 存储 单元 的 基础 上 ， 最 大 限度 降低 因 存 储 
单元 故障 导致 的 数据 损坏 的 概率 。 与 此 对 应 ， 磨 损 平 衡 策略 也 基于 对 存 
储 单元 的 实时 跟踪 结果 而 动态 调整 ， 确保 达到 更 接近 真实 情况 的 磨损 乎 





衡 效 果 。 


企业 级 SSD 另 外 一 个 非常 重要 的 系统 级 数据 保护 机 制 就 是 内 存 必 万 
之 间 的 元 余 校 验 机 制 。DERA SSD 将 多 个 不 同 内 存心 片上 的 存储 单元 按 
照 一 定 大 小 进行 划分 ， 组 成 动态 组 合 的 见 余 校 验 结构 。 如 果 某 个 已 片上 
的 数据 块 出 现 错误 ， 管 理 算法 能 够 基于 其 他 心 厂 上 的 数据 块 重新 构建 出 
错 已 片上 的 数据 ， 并 对 出 错 的 已 片 物 理 单元 做 受 善 处 理 。 


在 IT 系统 运行 环境 下 ， 意 外 挤 电 是 不 可 避免 的 问题 。SSD 对 意外 把 
电 知 处 理 不 当 ， 很 大 可 能 会 导致 用 户 数据 被 破坏 乃至 整个 设备 出 现 故 
Bi. DERA SSD 提 供 完备 的 硬件 手段 持续 监测 供电 情况 ， 并 在 供电 腊 御 
时 触 用 保护 集 略 ， 目 动 切 换 到 后 备 电容 或 其 他 不 间断 电源 供电 ， 在 整体 
的 软件 策略 上 了 予以 充分 配合 ， 在 发 生意 外 掉 电 时 最 大 限度 保证 用 户 数 据 


的 完整 性 。 


NVMe SSD 是 高 性 能 设备 〈 见 表 2-4) ， 虽 然 能 提供 优越 的 性 能 功 耗 
比 ， 但 是 在 高 负载 情况 下 其 功率 消耗 和 相应 的 发 热量 也 是 不 能 忽视 的 问 
题 。 受 限于 安装 密度 、 系 统 风 道 的 设计 ， 以 及 系统 风扇 管理 策略 在 一 定 
阶段 内 的 局 限 性 ， 在 某 些 安装 条 件 下 ，SSD 设 备 有 可 能 会 面临 散热 风量 
不 足 的 问题 。DERA SSD 在 运行 过 程 中 持续 监测 设备 温度 及 功率 使 用 情 
况 ， 并 按照 预定 策略 动态 处 理 ， 确 保 不 会 因为 系统 散热 条 件 不 足 而 导致 
设备 故障 或 更 严重 的 问题 。 





表 2-4 DERA NVMe SSD 人 性 能 





顺序 写 入 


随机 写 入 70k IOPS 270k IOPS 


DERA NVMe SSD | DERA NVMe SSD DERA NVMe SSD | DERA NVMe SSD 
( Gen3x4 ) ( Gen3x$8 ) ( Gen3x4 ) ( Gen3x$8 ) 


顺序 读 取 随机 读 取 760k IOPS 1.17M IOPS 


2.06 全 闪存 阵列 AFA 


经 常 听 人 说 起 全 闪存 阵列 ， 给 人 一 种 很 厉害 的 样子 ， 那 这 个 全 内 存 
阵列 到 底 是 个 什么 东西 ? 下 面 将 以 某 一 款 EMC XtremIO 为 例 来 带 你 入 
lla 


KiS f Vijay Swami I) XtremIO Hardware/Software 
Overview&Architecture Deepdive 一 文 ， 图 片 也 主要 来 目 这 篇 文章 。 


2.6.1 整体 解剖 


1. 结 构 
图 2-17 所 示 是 一 个 标准 的 XtremIO 全 闪存 阵列 ， 含 有 两 个 X-Brick， 


之 间 用 Infiniband 互 联 。 可 以 看 出 ，X-Brick 是 核心 ， 那 么 X-Brick 里 面 究 
竟 是 什么 ? 


Jere . : 
第 一 个 X-Brick 


iJ; 二 
s> Infiniband 交换 机 





二 第 二 个 X-Brick 





图 2-17 XtremIO 全 闪存 阵列 结构 
我 们 来 看 看 ， 一 个 X-Brick 包 括 : 
1 个 高 级 UPS 电 源 ; 
2 个 存储 控制 器 ; 


:人 磁盘 阵列 存储 柜 DAE， 放 有 很 多 个 SSD， 每 个 SSD 都 用 SAS 连 接 到 
存储 控制 器 ; 


如果 系 统 有 多 个 X-Brick， 那 么 需要 2 个 Infiniband 交 换 机 来 实现 存 
储 控制 器 高 速 互联 。 


2. 存 储 控制 器 


如 图 2-18 所 示 ， 存 储 控 制 右 其 实 束 是 个 Intel 服 务 器 ， 配 有 2 个 电源 ， 
看 起 来 是 NUMA 架 构 的 2 个 独立 CPU、2 个 Infiniband 控 制 器 、2 个 SAS 
HBA-F. Intel E5CPU， 每 个 CPU 配 有 256GB 内 存 。 
lw" 
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图 2- 18 存储 控制 器 机 箱 内 部 


如 图 2-19 所 示 ， 其 后 面 插 有 各 种 线 统 ， 看 着 感觉 乱糟糟 的 ， 如 图 2- 
19 所 示 。 设 计 的 架构 适用 于 集群 ， 所 以 线 统 有 很 多 是 见 余 的 。 





2-19 X-Brick 背 面 连 线 图 


阵列 正面 照 ，LCD 显 示 的 是 UPS 电 源 状 态 。 图 2-20 所 示 是 一 个 个 竖 
着 的 就 是 SSD 阵 列 。 
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[2-20 Xtrem-IO0 全 闪存 阵列 正面 照片 
3. 配 置 


如 表 2-5 所 示 ， 一 个 X-Brick 容 量 是 10TB， 可 用 容量 7.5TB， 但 是 考 





虑 到 数据 去 重 和 压缩 大 概 为 5 : 1 的 比例 ， 最 终 可 用 容量 为 37.5TB。 
表 2-5 XtremIO 配 置 表 
8 个 X-Brick 集群 


4 个 X-Brick 控制 器 


8 个 X-Brick 控制 器 “|16 个 X-Brick 控制 器 
2 个 X-Brick DAE 8 个 X-Brick DAE 8 个 X-Brick DAE 

2 个 备用 电源 8 个 备用 电源 8 个 备用 电源 

2 个 Infiniband 交换 机 |2 个 Infiniband 交换 机 |12 个 Infiniband 交换 机 


2 个 X-Brick 控制 器 
组 件 1 个 X-Brick DAE 
2 个 备用 电源 





emm e m C T 
mesas — ps — s — — — |» — — — n 
去 重 压缩 后 容量 (TB) | 
1 Akb 
4. 性 能 


有 人 做 了 XtremIO 性 能 测试 ， 在 2 个 X-Brick 的 全 闪存 阵列 跑 了 550 个 
虚拟 机 ， 为 7000 个 用 户 服 务 占 提供 服务 。 其 每 天 平均 读 写 带宽 为 
350MB/s--400MB/s, 20kIOPS; 最 高 时 达到 20GB/s，200k IOPS。 


5. 软 件 控制 台 


我 们 来 看 看 软件 控制 台 参 数 ， 如 图 2-21 所 示 ， 图 左边 显示 数据 降低 
率 2.5: 1， 其 中 去 重 率 1.5: 1， 压 缩 率 1.7: 1; 图 右边 是 带宽 、IOPS 和 
延迟 监控 图 ， 显 示 每 个 SSD 当 前 的 性 能 和 汇总 的 读 写 性 能 。 
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图 2-21 软件 控制 台 性 能 监控 


图 2-22 是 每 个 SSD 的 监控 图 ，DAE 中 每 个 盘 下 面 有 模拟 的 灯 ， 根 据 
盘 当 前 的 读 写 活动 不 断 闪烁 ， 看 起 来 非常 酷 ! 
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图 2-22 SSD 监 控 图 


2.6.2 ”硬件 架构 


EMC XtremIO 是 EMC 对 全 闪存 阵列 市 场 的 突 玲 ， 它 从 底层 开始 完 
根据 闪存 特性 设计 。 


如 图 2-23 所 示 ，1 个 X-Brick 包 含 2 个 存储 控制 器 ， 一 个 装 了 25 个 SSD 
的 DAE， 还 有 2 个 电池 备用 电源 (Battery Backup Unit, BBU) 。 每 个 X- 
Brick 包 含 25 个 400GB 的 SSD， 原 始 容量 10TB， 使 用 的 是 高 端的 eMLC 闪 
存 ， 一 般 擦 写 寿 命 比 普 通 的 MLC 长 一 个 数量 级 。 如 果 只 买 一 个 X- 
Brick， 配 有 两 个 BBU， 其 中 一 个 是 为 了 见 余 。 如 果 继 续 增 加 X-Brick,， 
那么 其 他 的 X-Brick 只 需要 一 个 BBU。 


| 





BBU 2 





BBU 1 


Controller 2 


DAE 


Controller 1 


[2-23 X-Brick 5t 


义 -Brick 支 持 级 联 来 增加 容量 ， 所 以 其 是 一 种 Scale-Out 架 构 ， 最 多 
可 以 到 4 个 X-Brick 甚 至 8 个 X-Brick( 见 图 2-24) 。 


X-Brick 1 
isi 


| [| 

EMC | EMC 

| E 
X-Brick 3 
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X-Brick 4 





EMC 
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X-Brick 2 


图 2-24 X-Brick H.H% 


| 





X-Brick 之 间 采 用 40Gbps 的 Infiniband 交 换 机 互联 。 


图 2-25 所 示 是 一 个 X-Brick 存 储 控制 服务 器 的 所 有 端口 ，40Gbps 
Infiniband 接 口 是 为 了 后 端 数据 连接 ， 其 实 就 是 X-Brick 之 间 的 互联 。 那 
么 ， 阵 列 和 主机 控制 端 如 何 进行 数据 交互 昵 ? 可 以 看 出 ， 既 可 以 使 用 
8Gbps FC， 也 可 以 使 用 10Gbps 的 iSCSI。 那 又 是 如 何 连 到 那么 多 的 SSD 
EWE? 用 的 是 6Gbps 的 SAS 接 口 ， 和 VNX 类 似 。 同 时 ， 电 源 和 所 有 的 接 
口 都 是 有 宛 余 的 ， 用 来 应 对 故障 。 那 么 一 个 X-Brick 节 点 自己 数据 的 存 
储 如 何 解决 呢 ? 它 配 有 2 个 SSD， 用 来 掉 电 时 保存 内 存 中 的 元 数据 。 要 
知道 ， 去 重 还 是 很 占用 内 存 的 ， 因 为 一 般 每 个 数据 块 需要 计算 出 一 个 
Hash 值 ， 甚 至 双重 Hash， 用 Hash 值 来 判断 唯一 性 。 同 时 还 有 2 个 SAS 人 硬 
盘 ， 作 为 操作 系统 运行 的 磁盘 。 











6 Gbps SAS 
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图 2-25 XX-Brick 存 储 控 制 器 端口 


这 样 一 来 ， 存 储 控制 占有 自己 的 硬盘， 而 不 占用 DAE 里 面 的 SSD 阵 
列 ， 内 存 阵列 只 用 于 存储 用 尸 数据， 受 2 个 存储 控制 喜 管 理 。 这 种 架构 
的 好 处 是 结构 清晰 、 界 限 分 明 ， 未 来 还 能 直接 升级 存储 控制 占 软 人 硬件 而 
不 动 内 存 阵 列 里 的 数据 。 


再 来 看 看 每 个 存储 控制 器 的 配置 ， 有 2 个 CPU 插 槽 的 1U 机 箱 ， 使 用 2 
个 8 核 的 Intel Sandy Bridge CPU，256GB 内 存 。 


MERE) 商都 以 最 高 性 能 为 订 ， 拿 一 个 新 盘 ， 写 一 点 数据 ， 甚 至 
往 DRAM Cache 里 面 写 一 点 然后 读 出 来 ， 就 吹 星 带宽 、IOPS、 延 迟 达到 
什么 程度 。 更 有 甚 者 ， 不 与 数据 ， 空 盘 读 ， 达 到 英 峰 融 宽 ， 简 直 把 用 户 
当 三 尹 小 孩 。 殊 不 知 ， 对 用 户 来 讲 ， 无 其 是 企业 级 用 户 ， 最 高 性 能 说 明 
不 了 什么 ， 只 能 忽悠 那些 不 懂行 的 人 ， 对 真正 业内 人 士 来 说 ， 实 际 使 用 
的 稳定 性 能 才 是 王道 。 


EMC 全 闪存 阵列 XtremIO，1 个 10TB 的 X-Brick， 可 用 容量 只 有 
7.5TB， 但 是 考虑 到 数据 去 重 ， 用 户 能 用 的 容量 其 实 很 大 ， 跟 实际 的 应 
用 相关 。 比 如 虚拟 桌面 VDI 应 用 ， 数 据 重 复 率 很 高 ， 想 想 不 同 人 安装 的 
Windows XP 虚拟 机 的 系统 文件 基本 都 是 一 样 的 ， 去 重 可 以 省 下 多 大 的 
空间 啊 ! 但 是 像 一 般 的 数据 库 应 用 ， 重 复 率 又 很 低 ， 毕 竟 数 据 库存 储 的 
数据 几乎 是 随机 的 。 


我 们 来 看 看 一 个 X-Brick 的 IOPS ( 见 图 2-26) : 

















:100964KB 5: 100k IOPS 。 


.50/504KB 读 / 写 : 150k IOPS 。 


:100%4KB 读 : 250k IOPS 。 





One X-Brick (6U) Two X-Bricks (12U) Four X-Bricks (22U) 
150k IOPS* 300k IOPS* 600k IOPS* 
250k IOPS^ 500k IOPS" IM IOPS^ 





图 2-26 ”XtremIO 性 能 





如 果 是 2 个 或 更 多 X-Brick 级 联 ， 性 能 线性 增长 ， 前 面 的 数值 翻 几 倍 
SERI ELT. 


有 一 点 必须 得 强调 ， 上 面 说 的 这 个 性 能 看 起 来 一 般 ， 但 是 要 知道 ， 


这 可 是 实际 使 用 的 性 能 ， 而 且 不 是 空 盘 拿 来 跑 跑 的 性 能 ， 而 是 全 盘 写 了 
至 少 80% 之 后 的 性 能 。 为 什么 要 写 至 少 80% 才 能 测 得 真正 的 性 能 ? 因为 
空 盘 写 不 会 触发 垃圾 回收 ， 当 用 户 占 满 了 整个 带宽 ， 且 盘 快 写 满 的 时 

候 ， 垃 圾 回收 才 开 始 工作 ， 此 时 用 户 能 分 到 的 带宽 束 少 了 ， 人 性 能 上 自然 下 
降 。 而 我 们 买 了 盘 ， 肯 定 很 快 会 写 很 多 数据 ， 所 以 只 有 快 写 满 了 才 是 常 
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2.6.3 ”软件 架构 


存储 行业 发 展 到 今天 ， 人 硬件 越 来 越 标 准 化 ， 所 以 已 经 很 难 靠 硬件 出 
彩 了 。 若 能 够 制造 存储 芯片 ， 例 如 三 星 这 种 模式 ， 从 底层 开始 都 自己 
做 ， 则 可 靠 巨 大 的 出 货 量 坐 收 硬件 的 利润 。 但 这 种 模式 投资 巨大 ， 一 般 
人 玩 不 来 ， 只 能 靠 软件 走 差异 化 了 ， 而 且 软 件 还 有 一 个 硬件 没有 的 优 
势 : 非 标准 化 。 比 如 IBM 的 软件 很 多 是 基于 目 己 的 UNIX 系 统 开 发 的 ， 
uoa ness SUD 
随便 冒 。 


看 了 前 面 的 XtremIO (XIO) 硬件 架构 之 后 ， 不 少 人 可 能 觉得 并 没 
有 什么 复杂 的 ， 基 本 上 就 是 系统 集成 、 组 装机 嘛 。 但 是 ， 全 闪存 阵列 的 
核心 在 软件 ， 软 件 做 好 了 ， 才 能 让 用 户 体验 到 闪存 阵列 的 性 能 。 试 想 ， 
如 果 iPhone 装 的 是 Android 系 统 ， 你 还 会 排队 花 五 六 干 元 去 买 吗 ? 估计 连 
两 三 千 都 舍不得 了 吧 ! 
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图 2-27 3 f AndroidBJiPhone 
1.XIO 软 件 几 大 杀 器 
EE: 提升 性 能 ， 同 时 因为 写 放 大 降低 ， 延 长 了 闪存 的 寿命 ， 提 


高 了 可 靠 性 。 





"Thin Provisioning: 分 区 的 容量 可 以 随 着 使 用 而 自动 增长 〈 直 到 用 
满 阵 列 ) ， 这 样 关 键 时 刻 不 会 影响 性 能 。 


镜像: 先进 的 镜像 架构 保证 了 容量 和 性 能 不 会 受 损 。 

“XDP 数 据 保护 ， 用 RAID6 保 护 数据 。 

-VAAI 和 集成: 后面 解 释 这 是 个 什么 。 
2.XIO 软 件 核 心 设计 思想 


10 一 切 为 了 随机 性 能 :任何 市 点 上 访问 任意 数据 块 ， 都 不 会 增加 
颌 外 的 成 本 ， 即 必须 公平 访问 所 有 的 资源 。 这 古 为 什么 ”这样 的 结果 束 
是 即使 布点 增加 ， 性 能 也 能 够 线性 增长 ， 扩 展 性 也 好 。 


2) 尺 可 能 减少 写 放 大 : 要 知道 ， 对 SSD 来 讲 写 放大 不 仪 会 导致 寿 
命 缩 得， 还 会 因为 闪存 的 探 写 次 数 升 高 ， 导 致 质量 下 降 ， 数 据 可 靠 性 下 
降 目标 就 是 让 后 台 实 际 写 入 的 数据 尽量 少 ， 起 到 一 种 数据 
衰减 的 作用 。 


3) 不 做 全 局 垃圾 回收 : XIO 使 用 的 是 SSD 阵 列 ， 而 SSD 内 部 是 有 高 
性 能 企业 级 控制 器 芯片 的 ， 当 前 的 SSD 主 控 都 非常 强大 ， 垃 圾 回收 效率 
很 高 ， 所 以 XIO 并 没有 再 重复 做 一 遍 垃 圾 回收 。 这 样 做 的 效果 是 降低 了 
写 放 大 ， 上 毕竟 后 台 拔 移 的 数据 量 少 了 ， 同 时 ， 节 省 出 时 间 和 系统 资源 提 
供给 其 他 软件 功能 、 数 据 服 务 和 VAAI 等 。 


4) 按照 内 容 存 放 数据 : 数据 存放 的 地 址 用 数据 内 容 生成 ， 跟 逻辑 
地 址 无 天。 这样 数 据 可 以 存放 在 任何 位 置 ， 提 升 随机 性 能 ， 同 时 还 可 以 
针对 SSD 做 各 种 优化 。 数 据 可 以 平均 放置 在 整个 系统 中 。 


5) True Active/Active 数 据 访 问 : LUN 没 有 所 有 者 一 说 ， 所 有 节点 
都 可 以 为 任何 卷 服务 ， 这 样 就 不 会 因为 某 一 个 节点 出 问题 而 使 性 能 受 


损 。 

















6) 扩展 性 好 : 性 能 、 容 量 等 都 可 以 线性 扩展 。 


3.XIO 软 件 为 什么 运行 在 Linux 用 户 态 ? 


XtremlO 





- 


XIOS 
XtremIO OS 


Linux 


图 2-28 XIO 软 件 架 构 


如 图 2-28 所 示 ，XIO 的 全 闪存 阵列 软件 架构 ，XIO OS 和 XIO 的 软件 
都 运行 在 Linux 的 用 户 态 ， 这 样 有 什么 好 处 呢 ? 我 们 知道 ，Linux 系 统 分 
为 内 核 态 和 用 户 态 ， 我 们 的 应 用 程序 都 在 用 户 态 运行 ， 各 种 硬件 接口 等 
系统 资源 都 通过 内 核 态 管理 ， 用 户 态 通过 system call 访 问 内 核资 源 。 

XIO 软 件 运行 在 用 户 态 有 几 大 优点 : 


导 免 了 内 核 态 的 进程 切换 ， 速 度 快 。 





i 0 
常 处 理 。 


:不必 受 到 GPL 的 约束 。Linux 是 开源 系统 ， 程 序 在 内 核 运行 必然 要 
用 到 内 核 代 码 ， 按 照 GPL 的 规定 ， 就 得 开源 ， 在 用 户 态 自己 开发 的 应 用 
就 不 受 此 限制 。 这 种 商业 性 软件 ， 里 面 很 多 东西 都 是 公司 花 了 很 多 心血 
开发 的 核心 技术 ， 开 源 了 就 太 不 值 了 。 由 此 也 可 以 看 出 软件 对 全 闪存 阵 
列 的 价值 ! 开源 了 还 能 卖 那么 贵 吗 ? 或 者 说 开源 了 ， 谁 都 可 以 组 装 起 
来 ， 装 一 个 开源 软件 ， 全 闪存 阵列 就 只 能 打 价 格 战 了 ， 高 科技 当 大 白菜 
rim 








在 每 个 CPU 上 运行 着 一 个 XIOS 程 序 ， X-ENV， 如 果 你 敲 一 
下 “top” 人 命令， 就 会 发 现 这 个 程序 掌控 所 有 的 CPU 和 内 存 资源 。 为 什么 这 
么 做 ? 


第 一 个 作用 就 是 为 了 XIO 能 100% 使 用 硬件 资源 ， 能 够 运筹 肉 悍 之 
中 ， 决 胜 干 里 之 外 。 知 道 自己 赚 多 少 钱 ， 才 能 想 清楚 该 怎么 花 。 


第 二 个 作用 是 不 给 其 他 进程 影响 XIO 性 能 的 机 会 ， 保 证 性 能 的 稳 
jm 

第 三 个 作用 是 提供 了 一 种 可 能 性 : 未 来 可 以 简单 修改 就 移植 到 
UNIX 或 者 Windows 平 台 ， 或 者 从 X86CPU 移 植 到 ARM、PowerPC 等 CPU 
架构 ， 因 为 这 都 是 上 层 程序 ， 不 涉及 底层 接口 。 


XIO 是 完全 脱离 了 硬件 的 软件 ， 为 什么 这 么 说 ? 因为 他 们 被 EMC 收 
购 之 后 ， 很 快 就 从 自己 的 硬件 架构 切换 到 了 EMC 的 白 盒 标准 硬件 架构 ， 
说 明 其 软件 基本 不 受 便 件 限制 。 而 且 ，XIO 的 硬件 基本 没有 自己 特殊 的 
组 件 ， 不 包含 FPGA， 没有 目 己 开发 的 蕊 片 、SSD 卡 、 固 件 等 ， 用 的 都 
是 标准 件 。 这 样 做 的 好 处 是 可 以 使 用 最 新 、 最 强大 的 X86 硬件， 还 有 最 
新 的 互联 技术 ， 比 如 比 Infiniband 更 快 的 技术 。 如 果 自 己 开 发 了 专用 的 便 
件 ， 要 跟着 CPU 一 起 升级 就 很 麻烦 了 ， 总 是 会 慢 一 拍 。 


甚至 ，XIO 完 全 可 以 只 卖 软件 ， 只 不 过 目前 EMC 没 这 么 二 而 已 。 现 
在 是 硬件 、 软 件 、EMC 客 户 服务 一 起 卖 。 没 准 哪 天 ， 硬 件 不 赚钱 了 ， 
EMC 就 只 卖 XIO 软 件 了 。 














2.6.4 工作 流程 


1.6 大 模块 


XIO 软 件 分 为 6 个 模块 ， 以 实现 复杂 的 功能 ， 其 中 包括 三 个 数据 模 
块 R、C、D， 三 个 控制 模块 P、M、 工 。 


P 〈Platform， 和 平台 模块 ) : 监控 系统 硬件 ， 每 个 节点 有 个 P 模 块 在 
运行 。 

M (Management， 管 理 模块 ): 实现 各 种 系统 配置 。 通 过 和 XMS 
管理 服务 器 通信 来 执行 任务 ， 比 如 创建 卷 、LUN 的 掩 人 码 等 从 命令 行 或 图 
Ll 有 一 个 节点 运行 M 模 块 ， 其 他 节点 运行 另 一 个 备 
用 M 模 块 。 


工 〈Cluster， 集 群 模块 ) : 管理 集群 成 员 ， 每 个 节点 运行 一 个 L 模 
块 。 


*R (Routing， 路 由 模块 〉: 
其 实 就 是 把 发 过 来 的 SCSI 命 令 翻 译 成 XIO 内 部 的 命令 。 


负责 来 自 两 个 FC 和 两 个 iSCSI 接口 的 命令 ， 是 每 个 节点 的 出 入 
[* EN Ar: 


-把 所 有 读 写 数据 拆 成 4KB 大 小 。 
计算 每 个 4KB 数 据 的 Hash 值 ， 用 的 是 SHA-1 算 法 。 
` 每 个 节点 运行 一 个 R 模 块 。 
:C 《Control， 控 制 模块 〉: 
-包含 了 一 个 映射 表 : A2H (数据 块 逻辑 地 址 
具备 镜像 、 去 重 、 自 动 扩 容 等 高 级 数据 服务 。 








Hash 值 ) 。 











D (Data， 数 据 模块 ) : 


:包含 了 另 一 个 映射 表 H2P (Hash 值 一 SSD 物理 存放 地 址 ) 。 可 
见 ， 数 据 的 存放 地 址 跟 逻 辑 地 址 无 关 ， 只 跟 数 据 有 关 ， 因 为 hash 值 是 通 
过 数据 算出 来 的 。 


.负责 对 SSD 的 读 写 。 

:负责 RAID 数 据 保 护 技术 一 一 XDP (XtremIO Data Protection) 
2. 读 流程 

读 流程 如 下 : 


1) 主机 把 读 命 令 通 过 FC 或 iSCSI 接口 发 送 给 R 模 块 ， 命 令 包 含 数据 
块 逻 辑 地 址 和 大 小 。 


2) R 模 块 把 命令 拆 成 4KB 大 小 的 数据 块 ， 转 发 给 C 模 块 。 

3) C 模 块 查 A2H 表 ， 得 到 数据 块 的 Hash 值 ， 转 发 给 了 DD 模块 。 

4) D 模 块 得 H2P 表 ， 得 到 数据 块 在 SSD 中 的 物理 地 址 ， 读 出 来 。 
3. 不 重复 的 写 流程 

不 重复 的 写 流 程 如 下 《〈 见 图 2-29) : 


1) 主机 把 写 命令 通过 FC 或 iSCSI 接口 发 送 给 R 模 块 ， 命 令 包 含 数据 
Jug HEHA o 


2) R 模 块 把 命令 拆 成 4KB 大 小 的 数据 块 ， 计 算出 Hash 值 ， 转 发 给 C 











模块 


3) C 模 块 及 现 Hash 值 没有 重复 ， 所 以 插入 自己 的 表 ， 转 发 给 DD 模 
块 。 


4) DD 模块 给 数据 块 分 配 SSD 中 的 物理 地 址 ， 写 下 去 。 










1) Host 通过 iSCSI 或 FC 接口 发 写 命令 


R-Module 2) R 模块 把 命令 拆 成 4KB 数据 块 ， 选 择 C 模块 。 
,* "Write Hash H5" 


计算 AKB 块 的 哈 希 值 
C-Module 


Address 


AT 2 3 AS $£ 3 
3) C 模块 把 Hash 值 写 入 映射 表 
e psp] e 


D-Module 4) D 模块 把 Hash 值 分 配给 物理 地 址 EE 

Hash HL B2 H? HA BHS 
Physical 7 
Address TS 
Ref Count SA 

“、、5 ) AKB 块 被 写 人 物理 块 E 

SSD ^a 

B eE UD SH 


Physical 
Address 


A 
»- pepe 


图 2-29 不 重复 的 写 流 程 








4. 可 去 重 的 写 流程 
可 去 重 的 写 流 程 如 下 〈 见 图 2-30) : 








1) Host 通过 iSCSI 或 FC 接口 发 写 命令 
R-Module 2) R 模块 把 数据 拆 成 4KB 数据 块 ， 选 择 C 模块 
"Write data with Hash H2". 计算 4KB 数据 块 的 Hash ffi H2 


cu 
Address 0 


3) C 模块 查 有 映射 表 发 现 Hash ffi H2 已 经 在 地 址 4 
rper pepe e 


EVEN ; 
Hash Hl] H2 H3, H4 


Physical ; kir t mr —€— 5 
aee | | ela 4) 数据 重复 ， 不 需要 写 。 哈 希 值 H2 的 次 数 加 到 2 


Ref Count 








Physical  ， 
Address | ^ 5) 没有 SSD A 


Data 





图 2-30 ”可 去 重 的 写 流 程 


1) 主机 把 写 命令 通过 FC 或 iSCSI 接口 发 送 给 R 模 块 ， 命 令 包 含 数 据 
块 逻 辑 地 址 和 大 小 。 


"à R 模 块 把 命令 拆 成 4KB 大 小 的 数据 块 ， 计 算出 Hash 值 ， 转 发 给 C 
RIK o 


3) C 模 块 查 A2H 表 (估计 还 有 个 H2A 表 ， 或 者 是 个 树 、Hash 数 组 之 
X) ， 发 现 有 重复 ， 转 发 给 DD 模块 。 


4) DD 模块 知道 数据 块 有 重复 ， 束 不 写 了 ， 只 是 把 数据 块 的 引用 数 
I1. 


可 以 看 出 ， 目 动 扩 容 和 去 重 都 是 在 后 台 目 然而 然 完 成 的 ， 不 会 影响 
正常 读 写 性 能 。 


我 们 可 以 畅想 整合 了 文件 系统 inode 表 和 SSD 了 映射 表 之 后 ， 复 制 会 很 
人 简单， 只 需要 两 个 迎 辑 块 对 应 到 一 个 物理 块 就 可 以 了 ， 并 不 需要 读 出 来 








再 写 下 去 。 要 知道 目 从 全 闪存 阵列 有 了 去 重 功能 之 后 ， 复 制 这 个 基本 的 
文件 操作 竟然 如 此 简单 : 没有 数据 搬移 ， 仅 仅 是 某 几 个 计数 登记 一 下 而 
己 。 下 面 我 们 细 细 道 来 。 
5.ESXi 和 VAAI 
首先 我 们 来 解释 一 下 ESXi 和 VAAI 两 个 名 词 。 
VMware 的 虚拟 化 产品 ， 束 个 人 、 小 企业 而 言 ， 有 Workstation、 
ESXi (vSphere, RHR) ~ VMware Server (免费 版 ) 可 以 选择 ， 
Workstation 和 VMware Server 需 要 装 在 操作 系统 〈 如 Windows 或 Linux ) 
上 ，ESXi 则 内 扔 在 操作 系统 中 。 所 以 ESXi 可 以 看 成 是 虚拟 机 平台 ， 上 
面 运行 着 很 多 虚拟 机 。 


VAAI CvStorage APIs for Array Integration) 是 虚拟 化 领域 的 标准 语 
言 之 一 ， 其 实 就 是 ESXi 等 发 送 命令 的 协议 。 


6. 复 制 流程 
图 2-31 所 示 是 复制 前 的 数据 状态 。 
复制 流程 《 见 图 2-32) 如 下 : 
1) ESXi 上 的 虚拟 主机 用 VAAI 语 言 发 了 一 个 虚拟 机 (VM) 复制 的 


命令 。 








d 


n 2) R 模 块 通过 iSCSI 或 FC 收 到 了 命令 ， 并 选择 一 个 C 模 块 执行 复 
l|. 


3) C 模 块 解析 出 命令 内 容 ， 把 原来 VM 的 地 址 范围 0 一 6 复制 到 新 的 
地 址 7 一 D， 并 把 结果 发 送 给 D 模 块 。 


4) D 模 块 得 询 Hash 表 ， 人 发 现 数据 是 重复 的 ， 所 以 没 写 数据 ， 只 把 
引用 数 增加 1。 


这 样 复 制 完 成 了 ， 没 有 真正 的 SSD 读 写 。 


不 过 有 个 问题 是 ， 这 些 元 数据 操作 都 是 在 内 存 中 完成 的 ， 那 万 一 突 
AHE BAI? XIO 设 计 了 一 套 非 常 复杂 的 日 志 机 制 : 通过 RDMA 把 














元 数据 的 改动 发 送 到 远 端 控制 器 节点 ， 使 用 XDP 技 术 把 元 数据 更 新 写 到 
2D e XIO 的 元 数据 管理 是 非 常 复杂 的 ， 前 面 讲 的 流程 只 是 简单 介 
绍 而 已 。 


R-Module 
"Read Address 3" 


H Eb." 








Address 0 


ea [T Tepepep [s 


D-Module 


Hash HI H2 H3 H4 
Physical 


Address 
Ref Count 


Physical SSD 


Address A B C D 
«^ [x iue 


图 2-31 复制 前 的 数据 状态 









1 ) ESXi Host 通过 VAAI 做 VM 复制 
R-Module 
“Copy a VM? 


C-Module 


2) R 模块 选择 C 模块 复制 地 址 0 一 6 


2 3 4 5 7 mw 汪 恒 | 3)C 模 执 只 是 复制 了 地 址 0 一 
ap Xr 
e [u^ E e NNNM (077 


D-Module 
HI H2 H3 H4 


Addres 0 1 








图 2-32 复制 流程 


由 于 使 用 了 A2H、H2P 两 张 表 ， 数 据 可 以 写 到 SSD 阵 列 的 任何 一 个 
地 方 ， 因 为 只 跟 数 据 的 Hash 有 关 ， 跟 逻辑 地 址 没关系 。 


最 近 网 友 们 在 热 妃 中 国 高 铁 十 三 五 规划 ， 尤 其 是 福建 到 台北 的 海底 
高 铁 更 是 令 人 震撼 。 短 短 十 多 年 的 时 间 ， 中 国 拓 然 成 为 了 世界 第 一 高 铁 
大 国 ， 乘 坐 高 铁 成 为 了 大 家 城市 则 出 行 的 第 一 选择 。 那 为 什么 中 国 这 么 
TET E PAG? 

人 多 ! 就 是 因为 中 国人 口 众 多 ， 而 且 稠密 ， 基 本 集中 在 东部 地 区 ， 
比如 素 沪 线 ， 普 通 铁路 的 运力 根本 无 法 满足 这 么 多 人 的 需求 ， 飞 机 也 没 
办 法 拉 完 这 么 多 人 。 高 铁 速 度 快 ， 目 然 单位 时 间 内 能 运载 更 多 的 人 ， 区 
XS ACIE SE I o 

在 存储 领域 也 是 这 个 道理 ， 全 闪存 阵列 底层 采用 了 内存， 所 以 速度 
很 快 ， 为 了 不 浪费 闪存 的 速度 ， 上 层 的 通信 也 需要 非常 蝇 效 。 下 面 斤 秘 
XIO 全 闪存 阵列 的 内 部 通信 。 


7. 回 顾 R、C、D 模 块 


前 文 介绍 了 R、C、D 三 个 数据 相关 的 模块 。 























可 以 看 出 ，R 和 上 层 打 交道 ，C 是 中 间 层 ，D 和 底层 SSD 打 交道 ， 记 
住 这 个 就 可 以 了 。 


首先 要 搞 清 楚 的 是 ， 这 些 模块 物理 上 怎么 放 在 控制 服务 器 里 面 。 
面 说 过 ，1 个 X-Brick 的 控制 服务 器 有 2 个 CPU， ACURA 个 XIOS 
软件 。 如 图 2-33 所 示 ，R、C 模 块 运行 在 一 个 CPU 上 ，D 则 运行 在 另 一 个 
CPU 上 。 为 什么 要 这 么 做 呢 ? 





同 ^ D 点 R- C. DI 仿 X-Brick 1 





图 2-33 X-Brick P Zl HEX Eg 


为 Intel Sandy Bridge CPU 集成 了 PCIe 控 制 器 〈Sandy Bridge 企 业 
版 CPU 集成 了 PCIe 3.0 接 口 ， 不 需要 通过 南 桥 转 接 ) 。 所 以 ， 在 多 CPU 
的 架构 中 ， 让 设备 直 连 CPU 的 PCIe 接 口 ， 性 能 就 会 很 高 ， 而 R、C、D 的 
分 布 也 是 按照 这 个 需求 来 设计 的 。 BIAISASTEEE KiE f CPU 2 的 PCIe 
插 权 上 ， 所 以 D 模 块 就 要 运行 在 CPU 2 上 ， 这 样 性 能 才能 达到 最 优 。 从 





这 里 ， 我 们 又 可 以 看 出 XIO 的 架构 上 的 优点 ， 就 是 软件 完全 可 以 按照 标 
准 化 硬件 来 配置 ， 通 过 布局 达到 最 优 的 性 能 。 如 果 CPU 的 分 布 变 化 了 ， 
也 会 根据 新 的 架构 简单 调整 软件 分 布 来 提升 性 能 


8. 模 块 间 通 信 : 扩展 性 极 佳 


我 们 再 来 说 说 正题 ， 模块 间 如 何 通 信 ? | 要 求 模块 必须 在 同 
一 个 CPU 上 ， 吏 像 图 2-33 所 示 一 样 ，R 和 C 并 不 一 定 要 在 一 个 CPU 上 才 
行 。 所 有 模块 之 间 的 通信 通过 Infiniband 实 现 ， 数据 通路 使 用 RDMA， 控 
制 通路 通过 RPC 实 现 。 


我 们 来 看 看 通信 的 时 间 成 本 : XIO 的 IO 总 共 延 时 是 600 一 700hs， 其 
中 Infiniband 只 占 了 7 一 16hs。 使 用 mnfiniband 来 互联 的 优点 是 什么 ? 其 实 
还 是 为 了 扩展 性 ， X-Brick 即 使 增加 ， 和 延迟 也 不 会 增加 ， 因 为 通信 路 径 
没 变化 。 任 意 两 个 模块 之 间 还 是 通过 Infiniband 通 信 ， 如 果 系 统 里 面 有 很 
多 R、C、D 模 块 ， 当 一 个 4KB 数 据 块 发 到 一 个 前 端 R 模 块 上 ， 它 会 计算 
Hash 值 ，Hash 会 随机 沙 在 任意 一 个 C 上 ， 没有 谁 特殊 。 这 样 一 切 都 是 线 
性 的 ，X-Brick 的 增 减 会 线性 地 导致 性 能 增 减 。 





2.6.5 ”应 用 场景 


闪存 价 格 现 阶段 还 是 比较 昂贵 的 ， 尤 其 是 企业 级 应 用 使 用 的 eMLC 
或 SLC， 所 以 全 闪存 阵列 XtremIO 并 不 能 取代 大 容量 的 存储 阵列 SAN。 
II a 闪存 的 优势 就 是 延迟 
低 、 性 能 高 ， 所 以 适用 于 容量 要 求 不 高 ， 但 是 要 求 延 迟 低 、 高 IOPS 的 应 
用 ， 比如 VD (应 所 是 大 架构 ， 就 是 虚拟 机 ) 、 数 据 库 、SAP 等 企 
业 应 用 。 


数据 库 是 非常 受益 的 ， 为 什么 ? 首先 是 性 能 高 ， 其 次 就 是 复制 几乎 
不 占 空间 ， 所 以 用 户 可 以 很 方便 、 快 速 地 为 数据 创建 多 个 副本 。 


已 经 有 人 在 一 个 X-Brick 上 运行 了 2500 一 3500 个 VDI 虚 拟 机 ， 而 延迟 
在 1ms 以 内 。 虚 拟 机 很 多 数据 也 是 重复 的 ， 毕 竟 每 个 系统 的 文件 都 差 不 
多 ， 所 以 去 重 也 能 发 挥 很 大 作用 。 


企业 应 用 领域 也 有 人 使 用 XIO 加 速 了 关键 应 用 。 

总 之 ， 只 要 容量 足够 ， 那 你 的 应 用 用 起 来 肯定 比 以 前 快 多 了 ! 

看 完了 整个 全 闪存 阵列 XIO 的 技术 揭秘 ， 我 们 发 现 其 实 XIO 的 核心 
还 是 在 软件 ， 因 为 硬件 都 是 标准 件 ， 都 是 X86 服 务 器 、SAS 接 口 的 
SSD。AFA 到 底 有 什么 独特 的 地 方 昵 ? 


相 比 SSD， 它 没有 垃圾 回收 、Wear Leveling, Read Disturb 等 传统 
SSD 的 功能 ， 因 为 这 些 都 在 SSD 里 面 由 主 控 搞 定 了 。 


相 比 传统 阵列 ， 它 的 特色 是 去 重 和 RAID 6 每 次 写 到 新 的 地 址 的 功 
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以 前 可 能 你 也 不 知道 全 内 存 阵 列 到 底 是 怎么 弄 的 ， 看 完了 这 一 市 
相信 你 已 经 不 觉得 它 神 秘 了 。 甚 至 可 以 这 样 看 : U 盘 是 一 两 个 内 存心 
和 控制 器 封装 ，SSD 是 很 多 U 盘 的 阵列 ， 全 闪存 阵列 是 很 多 SSD 的 阵 
列 ， 只 不 过 U 盘 是 最 差 的 闪存，SSD 好 一 点 ，AFA 用 得 更 好 。 但 是 ， 每 
w a 
is 
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黑 科 技 年 年 有 ， 今 年 尤其 多 。 比 如 Google 的 机 器 学 习 处 理 器 TPU 
2.0， 性 能 直接 震惊 了 深度 学 习 界 打 把 子 NVIDIA。 本 来 GPU 只 是 耗 电 厉 
害 ， 性 能 在 通用 方面 还 能 称霸 ， 没 想到 TPU 来 了 之 后 ， 一 下 子 GPU 性 能 
被 比 下 去 了 ， 功 耗 还 是 TPU 的 好 几 倍 。 这 也 从 一 个 侧面 告诉 我 们 ， 专 用 
ASIC 和 FPGA 等 可 定制 逻辑 的 深度 学 习 计算 平台 才 是 未 来 的 发 展 方 问 ， 
因为 它们 有 很 大 的 潜力 可 以 挖掘， 通过 架构 的 不 断 创新 ， 未 来 能 达到 的 


性 能 会 很 高 。 


我 们 都 知道 ， 现 在 是 一 个 数据 爆炸 的 时 代 ， 一 方面 手机 、 平 板 等 各 
种 移动 设备 在 产生 大 量 用 户 数 据 ， 男 一 方面 吉 布 全 世界 的 各 种 传 感 絮 ， 
比如 摄像 头 、 无 人 驾驶 汽车 的 各 种 探头 等 每 天 都 在 产生 海量 视频 数据 ， 
视频 和 图 像 才 是 信息 时 代数 据 的 大 头 。 举 个 例子 ， 一 辆 无 人 要 驶 汽车 的 
传 感 硕 、 激 光 雷 达 、 至 米 波 雷达 等 1 天 惑 会 产生 64TB 的 数据 ! 


支撑 起 这 一 巨大 数据 网 络 的 根基 是 IT 基 础 设施 ， 主 要 包括 网 络 、 计 
算 和 存储 三 大 部 分 。 




















图 2-34 IT 基础 架构 


IT 基础 架构 的 功能 就 跟 加 工 贸 易 差 不 多 ， 网 络 是 数据 的 搬运 工 ， 计 
算是 数据 的 加 工商 ， 存 储 就 是 数据 的 窝 。 现 在 ， 网 络 已 经 非常 高 速 了 ， 
家 里 百 兆 宽带 都 很 常见 ， 手 机 用 4G 也 能 看 看 小 电影 。 以 前 ， 存 储 是 个 
腑 烦 事 ， 想 想 当 年 360 开 机 助手 每 次 提醒 的 电脑 开机 时 间 有 和 多久， 机 械 
便 盘 号 达 和 裴 隆隆 转 个 不 停 ， 读 数据 还 慢 悠 您。 


但 是 ， 自 从 有 了 固态 人 硬盘 之 后 ， 存 储 就 不 是 事 儿 了， 最 新 的 PCIe 
3.0x8SSD， 读 写 带 宽 能 达到 4GB/s 以 上 ! 一 方面 存储 进步 快 ， 而 另 一 方 
面 CPU 又 受 摩尔 定律 失效 限制 ， 工 艺 进展 缓慢 ， 所 以 ， 计 算 成 了 瓶颈 ， 
尤其 是 在 图 像 和 视频 处 理 、 深 度 学 习 等 方面 。 海 量 数据 能 够 从 PCIe SSD 
高 速 读 写 ， 但 就 是 CPU 处 理 不 过 来 。 


那么 ， 把 存储 和 计算 结合 起 来 是 不 是 就 可 以 解决 这 个 痛 点 呢 ? 位 于 
中 国 上 海 的 一 家 公司 方 一 信息 科技 推出 了 一 款 黑 科 技 产 品 : 带 
FPGA 的 SSD 一 一 CFS (Computing Flash System， 计 算 闪 存 系统 ) 。 它 
采用 PCIe 3.0x8 高 速 接 口 ， 性 能 可 达 5GB/s。SSD 提 供 高 速 数据 存储 ， 
FPGA 能 提供 计算 加 速 ， 这 样 数据 从 SSD 出 来 就 由 FPGA 顺 带 算 好 ， 释 放 
了 CPU。 一 切 回归 原 位 ，CPU 做 控制 ，FPGA 做 计算 ，SSD 做 存储 。 


那么 ， 这 个 东西 有 什么 用 处 呢 ? 它 的 优势 主要 体现 在 海量 数据 高 速 
存储 和 人 工 智能 计算 方面 。 想 一 想 就 会 有 很 多 场景 ， 比 如 无 人 驾驶 汽 
车 ， 目 前 一 般 的 无 人 驾驶 汽车 配备 了 宣 米 波 雷 达 、 激 光 雷 达 、 高 速 摄像 
头等 各 类 传感器 。 每 秒 会 产生 1GB 数 据 ， 要 分 析 这 么 多 数据 需要 强大 的 
计算 能 力 。 很 多 无 人 驾驶 汽车 还 在 使 用 GPU 进 行 计算 。 目 前 市 场 上 在 卖 
的 一 个 CPU+GPU 计 算 盒 ， 功 耗 能 达到 5000W， 对 于 汽车 来 说 ， 这 个 小 
火 饶 的 散热 会 禹 来 很 大 的 安全 风险 ， 同 时 也 很 耗 电 。 但 是 ， 如 果 换 用 了 
FPGA 方 案 ， 功 耗 就 可 以 降下 来 ， 根 据 无 人 芍 驶 的 应 用 场景 对 算法 进行 
优化 之 后 ， 计 算 性 能 也 能 满足 需求 。 例 如 ， 奥 迪 公 司 的 无 人 驾驶 汽车 就 
采用 了 FPGA 计 算 平 台 。 这 些 传感器 产生 的 数据 目前 都 是 丢掉 ， 非 常 可 
惜 ， 未 来 商用 之 后 ， 不 管 是 政府 还 是 三 商都 有 存储 宝贵 的 行驶 数据 并 备 
份 到 云端 的 需求 。 这 些 数据 对 于 完善 无 人 轨 驶 、 分 析 车 祸 现场 都 非常 有 
用 。 要 保存 这 些 数据 ， 只 有 PCIe SSD 才 能 达到 1GB/s 以 上 的 写 速度 。 所 
以 ，FPGA SSD 一 方面 能 够 快速 存储 行驶 数据 ， 一 方面 又 可 以 提供 FPGA 
进行 数据 分 析 ， 完 美满 足 无 人 驾驶 的 计算 与 存储 需求 。 


自从 和 人工 智能 开始 新 一 轮 的 热潮 之 后 ， 很 多 公司 都 开始 用 FPGA 做 












































人 工 智 能 计算 ， 用 了 CFS， 就 可 以 直接 用 FPGA 里 的 人 工 智 能 人 硬件 算法 
对 SSD 内 部 的 海量 数据 进行 高 速 分 析 ， 最 后 把 分 析 结 果 发 送 给 主机 。 


可 能 有 人 要 问 ，EFPGA 和 闪存 心 片 中 国 还 不 能 国产 。 其 实 ，FPGA 中 
国 已 经 有 很 多 国产 三 商 在 做 ， 并 达到 主流 性 能 ， 而 闪存 忌 片 长 江 存储 在 
2018 年 就 有 希望 量 产 供 货 




















BIE SSD 存 储 介 质 : 闪存 


读者 君 知 道 ， 你 一 边 吃 着 地 铁 口 刚 买 的 杂粮 煎饼 ,一边 踢 读 的 这 本 
书 是 负责 SSDFans 微 信 公 众 号 的 几 位 作者 倾 力 合 著 的 ， 其 中 阿 下 负责 扎 
写 的 就 是 闪存 这 一 章 。 有 一 个 名 人 说 过 ， 书 能 传神 ， 当 你 看 书 的 时 候 ， 
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3.4 闪存 物 理 结构 
3.1.1 闪存 右 件 原理 


前 文 已 经 讲 过 了 固态 人 硬盘 的 发 展 史 ， 曾 经 的 固态 人 硬盘 有 过 RAM 等 
介质 ， 但 是 目前 绝 大 多 数 固态 硬盘 都 是 以 内 存 蕊 片 为 存储 介质 的 。 
DRAM 固 态 硬 盘 我 们 见得 少 ， 主 要 应 用 于 特殊 的 场合 。1978 年 诞生 的 世 
界 上 第 一 块 固态 硬盘 就 是 基于 DRAM 的 。 但 由 于 保存 在 DRAM 中 的 数据 
有 挥 电 易 失 性 ， 当 然 还 有 成 本 因素 ， 所 以 现在 的 固态 人 硬盘 一 般 都 不 采用 
DRAM， 而 是 使 用 内 存 作为 存储 介质 ， 并 且 是 NAND 闪 存 。 固 态 人 硬盘 的 
工作 原理 很 多 也 都 是 基于 闪存 特性 的 。 比 如 ， 内 存在 写 之 前 必须 先 擦 
除 ， 不 能 履 善 写 ， 于 是 固态 硬盘 才 需 要 垃圾 回收 《Garbage Collection, 
或 者 叫 Recycle) ; 闪存 每 个 块 (Block) 擦 写 次 数 达到 一 定 值 后 ， 这 个 
块 要 么 变 成 坏 块 ， 要 么 存储 在 上 面 的 数据 不 可 靠 ， 所 以 固态 人 硬盘 固件 必 
须 做 磨损 平衡 ， 让 数据 平均 写 在 所 有 块 上 ， 而 不 是 有 盯 着 几 个 块 拼命 写 
(不 然 很 快 固态 硬盘 就 报废 了 ) 。 还 有 很 多 类 似 的 例子 ， 固 态 硬盘 内 部 
很 多 算法 都 是 在 为 内 存 服务 的 。 所 以 ， 欲 攻 固 态 硬 盘 ， 闪 存 首当其冲 。 


闪存 是 一 种 非 易 失 性 存储 器 ， 也 就 是 说 ， 掉 电 了 数据 也 不 会 丢失 。 
闪存 基 本 存储 单元 〈Cell) 是 一 种 类 NMOS 的 双 层 浮 机 (Floating Gate) 
MOS 管 ， 如 图 3-1 所 示 。 
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图 3-1 浮 栅 晶体 管 结构 


ÆW (Source) 和 漏 极 (Drain) 之 间 电 流 单 同 传导 的 半导体 上 形 
成 存储 电子 的 浮 机 ， 浮 机 上 下 被 绝缘 层 包 围 ， 存 储 在 里 面 的 电子 不 会 因 
为 挥 电 而 消失 ， 所 以 闪存 是 非 易 失 性 存储 器 。 


写 操作 是 在 控制 极 加 正 电压 ， 使 电子 通过 绝缘 层 进入 浮 栅 极 。 擦 除 
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图 3-2 Jk: 写 原 理 ; A: RRRA 


在 2014 年 的 闪存 峰会 上 ， 浮 栅 品 体 管 的 发 明 人 施 敏 CDr.Simon 
Sze) 被 授予 终身 成 就 奖 ， 以 表彰 他 发 明了 浮 栅 极 唱 体 管 。 据 说 ， 浮 栅 
极 唱 体 管 的 发 明 灵 感 是 这 样 来 的 ， 某 天 ， 施 敏和 搭档 Dawon Kahng 在 公 
司 的 食堂 一 起 吃 午 餐 ， 饭 后 甜点 是 奶酪 蛋糕 。 看 着 夹心 蛋糕 ， 他 们 在 
想 ， 如 果 在 MOS 场 效应 管 中 间 加 个 东西 ， 会 怎样 呢 ? 于 是 ， 浮 机 晶体 管 
横 空 出 世 。 截 至 2014 年 的 某 个 时 间 点 ， 据 统计 ， 全 世界 生产 的 浮 栅 晶体 
管 数目 达 1074344929692350000000。 


这 个 数字 还 在 继续 增长 者 。 阿 不 觉得 终身 成 就 奖 不 够 ， 施 敏 应 该 获 
得 诺 贝 尔 奖 ， 毕 竟 机 械 硬 盘 机 理 一 一 巨 磁 阻 效应 的 发 现 人 已 经 获得 了 详 


贝尔 奖 。 




















获奖 后 ， 施 敏 在 庆功 楼 上 为 自己 护 了 一 份 奶酪 集 糕 。 


3.1.2 SLC, MLCAITLC 


一 个 存储 单元 存储 1lbit 数 据 的 闪存， 我 们 叫 它 为 SLC (Single Level 
Cell) ， 存 储 2bit 数 据 的 闪存 为 MLC (Multiple Level Cell) ， 存 储 3bit 数 
据 的 闪存 为 TLC (Triple Level Cel) ， 如 表 3-1 所 示 。 现 在 已 经 有 厂商 在 
研发 QLC， 即 一 个 存储 单元 存储 4bit 数 据 ， 本 书 不 做 介绍 。 








表 3-1 SLC、MLC、TLC 原 理 











对 SLC 来 说 ， 一 个 存储 单元 存储 两 种 状态 ， 浮 栅 极 里 面 的 电子 多 于 
东 个 参考 值 的 时 候 ， 我 们 把 它 采 样 为 0， 人 否则 就 判 为 1。 

图 3-3 是 内 存 必 片 里 面 存储 单元 的 国 值 电压 分 布 函数 ， 横 轴 是 阔 值 
电压 ， 纵 轴 是 存储 单元 数量 。 其 实在 0 或 1 的 时 候 ， 并 非 所 有 的 存储 单元 
都 是 同样 的 阔 值 电压 ， 而 是 以 这 个 电压 为 中 心 的 一 个 分 布 。 读 的 时 候 采 
样 电压 值 落 在 1 范围 里 面 ， 束 认为 是 1; 落 在 0 范围 里 面 ， 就 认为 是 0。 


] bit/cell 









Zof cells 











图 3-3 SLC 电压 分 布 


探 除 之 后 ， 闪 存 读 出 来 的 值 为 1， 充 过 电 之 后 ， 束 是 0。 所 以 ， 如 果 
要 写 1， 束 什么 部 不 用 干 ， 写 0， 束 需要 充电 到 0。 


对 MLC 来 说 ， 如 下 一 个 存储 单元 存储 4 个 状态 ， 那 么 它 只 能 存储 
2bit 的 数据 ， 如 图 3-4 所 示 。 通 俗 来 说 束 是 把 浮 栅 极 里 面 的 电子 个 数 进行 
一 个 划分 ， 比 如 低 于 10 个 电子 判 为 0，11 一 20 个 电子 判 为 1，21 一 30 个 电 
子 判 为 2， 多 于 30 个 电子 判 为 3。 


2 bit/cell 


#of cells 





图 3-4 MLC 电 压 分 布 


依 此 类 推 ，TLC 知 是 一 个 存储 单元 有 8 个 状态 ， 那 么 它 可 以 存储 3bit 
的 数据 ， 它 在 MLC 的 基础 上 对 浮 栅 极 里 面 的 电子 数 又 进一步 进行 了 划 
分 ， 如 图 3-5 所 示 。 


3 bit/cell 


Zof cells 








[3-5 ”TLC 电压 分 布 


同样 面积 的 一 个 存储 单元 ，SLC、MLC 和 和 TLC 分别 可 以 存储 1bit、 
2bit、3bit 的 数据 ， 所 以 在 同样 面积 的 DIE 上 ， 内 存 容量 依次 变 大 。 


但 同时 ， 一 个 存储 单元 电子 划分 得 越 多 ， 那 么 在 写 入 的 时 候 ， 控 制 
进入 浮 栅 极 的 电子 个 数 就 要 越 精细 ， 所 以 写 耗费 的 时 间 就 越 长 ， 同 样 
的 ， 读 的 时 候 ， 需 要 尝试 用 不 同 的 参考 电压 去 读 取 ， 一 定 程度 上 加 长 了 
读 取 时 间 。 所 以 我 们 会 看 到 在 性 能 上 ，TLC 不 如 MLC，MLC 不 如 SLC。 








如 表 3-2 所 示 是 SLC、MLC 和 TLC 在 性 能 和 寿命 Endurance) 上 的 
zl (不 同 制程 和 不 同 广 家 的 闪存 ， 参 数 不 尽 相同 ， 数 据 仅 供 
2575), 





表 3-2 SLC、MLC、TLC 人 参数 比较 


3D TLC 逐 渐 成 为 主流 。 同 时 ，QLC 也 马上 要 量 产 了 ， 每 个 存储 单 
元 存储 4bit 数 据 ， 比 TLC 还 要 慢 ， 还 要 不 可 靠 。 之 前 怀疑 TLC 可 靠 性 的 
人 们 ， 怎 么 看 QLC? 











3.13 ”闪存 心 片 架构 


内 存心 片 就是 由 成 干 上 万 这 样 的 存储 单元 按照 一 定 的 组 织 结构 组 成 
Jo 


图 3-6 所 示 是 一 个 内存 块 (Block) 的 组 织 架 构 。 一 个 Wordline 对 应 
着 一 个 或 奉 干 个 Page， 具 体 是 多 少 取决 于 是 SLC、MLC 或 者 TLC。 对 
SLC 来 说 ， 一 个 Wordline 对 应 一 个 Page; MLC 则 对 应 2 个 Page， 这 两 个 
Page 是 一 对 (Lower Page 和 Upper Page) ; TLC 对 应 3 个 Page (Lower 
Page. Upper Page 和 Extra Page， 不 同 闪存 三 家 叫 法 不 一 样 ) 。 一 个 Page 
有 多 大 ， 那 么 Wordline 上 面 就 有 多 少 个 存储 单元 ， 束 有 多 少 个 Bitline。 
一 个 Block 当 中 的 所 有 这 些 存 储 单元 都 是 共用 一 个 衬 底 的 。 
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图 3-6 “闪存 Block 组 织 架 构 


这 里 没有 考虑 奇 / 偶 Bitline， 人 否则 一 个 wordline 上 的 Page 数 量 在 此 基 
础 上 要 翻 倍 。 


一 个 内 存 内 部 的 存储 组 织 结构 如 图 3-7 所 示 : ANECA AF 


个 DIE (或 者 叫 LUN) ， 每 个 DIE 有 若干 个 Plane， 每 个 Plane 有 若干 个 
Block， 每 个 Block 有 若干 个 Page， 每 个 Page 对 应 着 一 个 Wordline， 
Wordline 由 成 千 上 万 个 存储 单元 构成 。 
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图 3-7 ”闪存 内 部 组 织 架 构 


DIELUN 是 接收 和 执行 闪存 命令 的 基本 单元 。 如 图 3-7 所 示 ，LUN0 
和 LUN1 可 以 同时 接收 和 执行 不 同 的 命令 (但 还 是 有 一 定 限 制 的 ， 不 同 
厂家 的 闪存 限制 不 同 ) 。 但 在 一 个 LUN 当 中 ， 一 次 只 能 独立 执行 一 个 命 
令 ， 你 不 能 对 其 中 某 个 Page 写 的 同时 ， 又 对 其 他 Page 进 行 读 访问 。 








一 个 LUN 又 分 为 耕 干 个 Plane， 市 面 上 常见 的 是 1 个 或 者 2 个 Plane， 
现在 也 有 4 个 Plane 的 闪存 了 。 每 个 Plane 都 有 自己 独立 的 Cache Register 和 
Page Register， 其 大 小 等 于 一 个 Page 的 大 小 。 固 态 硬盘 主 控 在 写 某 个 
Page 的 时 候 ， 先 把 数据 从 主 探 传输 到 该 Page 所 对 应 Plane 的 Cache Register 
当中 ， 然 后 再 把 整个 Cache Register 当 中 的 数据 写 到 闪存 阵列 ， 读 的 时 候 
则 相反 ， 先 把 这 个 Page 的 数据 从 闪存 介质 读 取 到 Cache Register， 然 后 再 
按 需 传 给 主 控 。 这 里 按 需 是 什么 意思 ? 就 是 我 们 读 取 数 据 的 时 候 ， 没 有 
必要 把 整个 Page 的 数据 都 传 给 主 控 ， 而 是 按 需 选择 数据 传输 。 但 要 记 
住 ， 无 论 是 从 闪存 介质 读数 据 到 Cache Register， 还 是 把 Cache Register 的 
数据 写 入 闪存 介 质 ， 都 以 Page 为 单位 ， 如 图 3-8 所 示 〈 不 过 有 些 内 存 文 
持 partial program/read， 这 不 在 讨论 之 列 ) 。 














正常 读 ”Cache 读 控制 器 。 正常 写 Cache 与 


Cache Register Cache Register 
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图 3-8 Page 绥 存 的 用 法 


为 什么 需要 Cache Register 和 Page Register RT? 主要 目的 是 优 
化 闪存 的 访问 速度 。 闪 存 支持 Cache 读 、 写 操作 ， 如 图 3-8 所 示 。Cache 
读 文 持 在 传输 前 一 个 Page 数 据 给 主 控 的 时 候 (Cache Register > 主 控 ) ， 
可 以 从 闪存 介质 读 取 下 一 个 主 控 需 要 读 的 Page 的 数据 到 Page 
Register (闪存 介质 2 Page Register) ， 这 样 数 据 在 闪存 总 线 传输 的 时 间 
就 可 以 隐藏 在 读 内 存 介 质 的 时 间 里 (或 者 相反 ， 取 决 于 哪个 时 间 更 
长 ) ; Cache Program 也 是 如 此 ， 它 文 持 闪存 写 前 一 个 Page 数 据 的 同时 

(Page Register -内存 介 质 )， 传 输 下 一 个 要 写 的 数据 到 Cache 





Register 〈 主 控 5 Cache Register) ， 这 样 数据 在 闪存 总 线 传输 可 以 隐藏 
在 前 一 个 Page 的 写 时 间 里 。 


当然 ， 有 两 个 Register 的 闪存 也 支持 正常 的 读 写 模式 ， 这 时 候 ， 用 
户 可 以 把 Cache Register 和 Page Register 看 成 是 一 个 缓存。 


我 们 通常 所 说 的 闪存 读 写 时 间 ， 并 不 包含 数据 从 闪存 到 主 控 之 间 的 
数据 传输 时 间 ， 也 不 包括 数据 在 Cache RegisterfllPage Register 之 间 的 传 
输 时 间 。 闪 存 写 入 时 间 是 指 一 个 Page 的 数据 从 Page Register 当 中 写 入 闪 
存 介质 的 时 间 ， 内 存 读 取 时 间 是 指 一 个 Page 的 数据 从 内 存 介质 读 取 到 
Page Register 的 时 间 。 


闪存 一 般 都 支持 Multi-Plane (或 者 Dual-Plane) 操作 。 那 么 什么 是 
Multi-Plane 操 作 呢 ?对 写 来 说 ， 主 控 先 把 数据 写 入 第 一 个 Plane 的 Cache 
Register 当 中 ， 数 据 保持 在 那里 ， 并 不 立即 写 入 闪存 介质 ， 等 主 控 把 同 
一 个 LUN 上 的 另外 一 个 或 者 几 个 Plane 上 的 数据 传输 到 相应 的 Cache 
Register 当 中 ， 再 统一 写 入 闪存 介质 。 假 设 写 入 一 个 Page 的 时 间 为 
1.5ms， 传 输 一 个 Page 的 时 间 为 50hs: 如 果 按 原始 的 Single Plane 操 作 ， 

写 两 个 Page 需 要 至 少 〈1.5ms+50hs) x2; 但 如 果 按 照 Dual-Plane 操 作 ， 
由 于 隐藏 了 一 个 Page 的 写 入 时 间 ， 写 入 两 个 Page 只 要 1.5ms+50x2phs， 绚 
减 了 几乎 一 半 的 时 间 ， 写 入 速度 几乎 翻番 。 对 读 来 说 ， 使 用 Dual-Plane 
操作 ， 两 个 不 同 Plane 上 的 Page 数 据 会 在 一 个 闪存 读 取 时 间 加 载 到 各 自 的 
Cache Register 汝 中， 这 样 用 一 个 读 取 时 间 读 取 到 两 个 Page 的 数据 ， 读 取 
速度 加 快 。 假 设 读 取 时 间 和 数据 传输 时 间 相 当 ， 都 是 50hs，Single Plane 
读 取 传 输 两 个 Page 需 要 50hsx4=200hs，Dual-Plane 则 需要 
50hsx2+50hs=150hs， 时 间 为 前 者 的 759%， 读 取 速 度 也 有 很 大 的 提升 。 


闪存 的 擦 除 是 以 Block 为 单位 的 。 为 什么 呢 ?” 那 是 因为 在 组 织 结构 
上 ， 一 个 Block 当 中 的 所 有 存储 单元 是 共用 一 个 衬 底 的 〈Substrate) . ?5 
你 对 某 衬 底 施 加 强 电压 ， 那 么 上 面 所 有 浮 栅 极 的 电子 都 会 被 吸出 来 。 
个 内 存 Block 都 有 擦 写 次 数 的 限制 ， 这 个 最 大 探 写 次 数 按 SLC、MLC、 
TLC 依 次 递减 :SLC 的 擦 写 次 数 可 达 10 万 次 ，MLC 一 般 为 几 千 到 几 万 
次 ，TLC 降 到 几 百 到 几 千 次 。 随 着 闪存 工艺 的 不 断 进步 (现在 已 进入 
1Xnm 时 代 ) ， 闪 存 容量 不 断 加 大 ， 但 性 能 与 可 靠 性 却 在 变 差 。 要 克服 
内 存 的 这 些 不 利 因素 ， 固 态 人 硬盘 固件 算法 需要 面 对 更 多 、 更 大 的 挑战 。 
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闪存 的 基本 操作 是 该 、 写 、 控 。 下 面 来 具体 介绍 ， 各 种 参数 仅 供 参 
考 〈 不 同 内 存 参数 不 同 ) 。 


1. 擦 除 


如 图 3-9 所 示 ， 擦 除 前 ， 浮 机 上 有 可 能 有 电子 ，Pwell 加 20V 电 压 ， 
经 过 足够 时 间 后 ， 由 于 量子 隧道 效应 ， 电 子 从 浮 机 到 沟 道里 面 ， 完 成 一 
个 Block 的 擦 除 ， 阔 值 电压 都 变 成 了 -Vr ， 状 态 为 “1”。 一 个 LUN 上 的 
MOS 管 共用 一 个 Pwell， 但 是 其 他 不 用 探 除 的 Block 的 栅 极 电压 是 悬空 ， 
不 会 有 隧道 效应 。 
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图 3-9 ” 擦 除 操作 电压 示例 


2. 与 


如 图 3-10 所 示 ， 拟 除 后 所 有 的 单元 阔 值 电压 为 -VTr ， 写 电压 如 下 : 
要 写 的 单元 Wordline 为 高 电压 ，Bitline=0V;， 由 于 量子 隧道 效应 ， 电 子 
从 沟 道 到 浮 栅 ， 成 为 “0”。 不 写 的 单元 Bitline 为 2V， 在 沟 道里 的 效应 阻 
碍 了 量子 隧道 效应 发 生 。 





3. 读 





不 读 的 Wordline=5V， 管 子 保持 导 通 ; 要 读 的 单元 Wordljine=0V，- 
Vr 的 管子 导 通 ，Bitline 问 的 传感器 能 够 检测 到 ， 所 以 读 到 *1”， 而 经 过 
写 的 +yT 的 管子 不 导 通 ， 传 感 器 读 为 “0”。 
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图 3-10” 写 入 操作 电压 示例 
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图 3-11 读 操作 电压 示例 


3.3155 三 维 闪存 


因为 集成 密度 高 、 单 位 比特 成 本 低 和 可 靠 性 高 等 众多 优点 ， 闪 存 占 
据 了 手机 、 平 板 、 固 态 硬盘 等 绝 大 部 分 的 非 易 失 性 存储 市 场 。 可 是 因为 
技术 上 的 限制 ， 这 些 优势 越 来 越 难以 维持 下 去 。 


即使 2 次 曝光 技术 (Double Patterning Technology) 和 4 次 曝光 技术 
(Quadruple Patterning Technology)〉 的 引入 提高 了 制造 工艺 ， 但 随 着 
代 又 一 代 半 导体 制造 技术 的 演进 ， 二 维 平面 单元 尺寸 逐渐 减 小 ， 单 元 间 
的 相互 干扰 却 在 逐渐 增加 。 基 于 二 维 平面 单元 结构 的 尺寸 缩小 已 经 无 法 
进一步 降低 比特 成 本 了 ， 即 达到 了 技术 上 的 瓶颈 。 


图 3-12 为 过 去 十 年 的 单元 尺寸 与 单元 相互 干扰 的 变化 趋势 图 。 从 上 
半 部 分 可 以 看 出 ， 二 维 内 存单 元 尺寸 不 断 下 降 ， 对 应 到 下 半 部 分 束 古 单 
元 间 的 相互 干扰 不 断 增加 ， 但 到 了 三 维 内 存 后 ， 尺 寸 大 然 义 再 次 变 大 
了 ， 所 以 ， 单 元 间 相 互 干 扰 大 幅度 减 小 。 


本 小 节 文 字 和 图 表 是 SSDFans 作 者 帅 师 兄 整 理 自 论文 H.Kim， 
S.J.Ahn, Y.G.Shin, K.Lee and E.Jung. “Evolution of NAND Flash 
Memory: From 2D to 3D as a Storage Market Leader, ”2017IEEE 
International Memory Workshop (IMW) , Monterey, CA, 2017. 

















WL direction 
BL direction 


Airgap 


单元 面积 (nm? ) 
单元 之 间 干 扰 (A.U) 





All BL program 
Om e a a 


: 2D NAND generation = NAND 
图 3-12 ”过 去 十 年 的 单元 尺寸 〈 左 ) 与 单元 相互 干扰 ( 右 ) 的 变化 趋势 
为 了 元 服 二 维 平面 单元 结构 的 技术 挛 贷 ， 自 2006 年 以 来 ， 各 种 三 维 


闪存 结构 陆续 被 提出 来 。 其 中 一 种 叫 作 TCAT， 已 经 于 2013 年 开始 了 规 
模 化 量 产 。 三 维 内 存 结构 并 不 是 利用 传统 的 缩小 单元 的 方法 ， 而 是 以 提 





高 堆 登 栅 极 结构 CWL) 的 数目 来 提高 必 片 的 集成 密度 。 平 均 来 看 ， 每 
一 代 三 维 闪 存 的 堆 琶 栅 极 结构 的 数目 都 增长 了 40%， 这 意味 着 每 一 代 单 
元 尺寸 减 小 了 平均 40%。 因 此 ， 三 维 闪 存 快速 地 把 二 维 闪 存 挤 出 了 市 
场 ， 应 用 三 维 闪 存 的 固态 人 硬盘 也 快速 地 蔡 代 了 存储 市 场 上 的 机 械 人 硬盘 。 
如 图 3-13 所 示 ， 根 据 iSuppli 的 调查 ， 固 态 硬盘 在 闪存 市 场 的 份额 从 2013 
年 到 2017 年 ， 由 23% 增 长 到 了 43%。 
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图 3-13 固态 硬盘 在 内 存 市 场 的 份额 变化 


图 3-14 是 《Inside NAND Flash Memories》 一 书 提供 的 某 一 类 三 维 闪 
存 的 结构 示意 图 ， 在 这 种 三 维 闪 存 中 ， 沟 道 是 竖 起 来 的 ， 一 层 一 层 盖 楼 
的 是 连接 到 栅 极 的 Wordline。 
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图 3-14 三 维 闪 存 立 体 图 

这 里 就 不 罗列 历史 上 三 维 闪存 的 发 展 事件 了 ， 只 把 关键 的 两 个 事件 
点 出 来 。2007 年 ，BiCS (Bit Cost Scalable) 技术 CB JE EM ES 
MJ) 被 提出 ;2009 年 ， 金 属 栅 极 三 维 闪 存 技术 (Terabit Cell Array 
Transistor, TCAT) 被 提出 来 。BiCS 和 TCAT 的 具体 对 比如 图 3-15 所 
示 。 其 中 ， 单 元 串 的 结构 、 单 元 堆 又 的 方式 、 编 程 / 擦 除 窗口 长 短 以 及 
擦 除 方法 等 都 是 不 同 的 。BiCS 利 用 了 多 唱 硅 栅 极 ，TCAT 利 用 了 金属 机 
极 ; BicSs 的 编程 / 探 除 窗口 比较 军 ， 而 TCAT 的 编程 / 控 除 窗口 就 比较 
宽 ，BiCS 的 擦 除 方 法 是 GIDL， 而 TCAT 的 擦 除 方 法 是 群 擦 除 方法 (Bulk 
Erase) 。 二 者 的 制造 工艺 流程 也 是 不 一 样 的 。 

与 二 维 平面 闪存 相 比 ，TCAT 更 加 稳定 、 可 靠 而 且 性 能 水 平 更 加 优 
越 。 如 图 3-16 所 示 ， 单 元 间 相互 干扰 降低 了 84%， 氛 写 寿 命 却 提高 了 10 
倍 以 上 ， 编 程 时 间 (tPROG) tub f —-E5, BI FRE Va, 随 着 擦 写 增 
多 带 来 的 偏 移 也 减 小 了 67%。 
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又 的 三 维 闪 存 也 接连 投产 。 如 图 3-17 所 示 ， 三 维 闪存 的 存储 密度 在 每 一 
代 几 乎 都 实现 了 翻 倍 。 


不 过 三 维 闪 存 也 面临 下 面 两 个 挑战 : 


1) 堆 登 栅 极 层 数目 增加 带 来 的 问题 。 正如 前 面 所 说 ， 三 维 闪存 通 
过 增加 堆 闫 梢 极 层 的 数目 来 提高 比特 密度 ， 而 且 每 一 代 堆 善 栅 极 层 数目 
都 会 增加 30%~50%， 这 会 带 来 许多 困难 ， 比 如 串 电流 的 减 小 ， 高 层 与 
低层 单元 特征 的 差异 性 增 大 。 
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图 3-15 ”BICS 和 TCAT 工 艺 对 比 
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图 3-16 ”二 维 闪 存 和 TCAT 三 维 闪 存 特性 对 比 


具体 地 来 讲 ， 如 图 3-18 所 示 ， 随 着 堆 登 栅 极 层 数目 的 增加 ， 每 个 
Block 的 Page 数 目 不 断 增加 。 在 读 的 过 程 中 ， 对 一 个 Block 来 说 ， 累 积 的 
读 取 数 目 增加 ， 导 致 读 干 扰 会 变 严重 。 为 了 降低 读 干 扰 ， 需 要 降低 读 参 
考 电压 Vs ， 这 样 就 会 导致 囊 电流 减 小 ， 使 得 提供 给 传 感 运 放 的 信号 


更 微弱 。 
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图 3-17 ”三维 闪存 存储 密度 增长 图 
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如 图 3-19 所 示 ， 局 层 与 低层 之 间 的 单元 会 存在 差异 。 通 道 也 的 尺寸 
大 小 和 栅 极 厚度 也 存在 差异 ， 这 些 结构 上 的 差异 会 带 来 编程 / 擦 除 速度 
的 差异 、 单 元 间 干 扰 的 差异 以 及 数据 保存 的 莽 异 等 。 
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图 3-19 ”高 层 和 底层 单元 差异 


底层 单元 的 通道 也 小 ， 所 以 耦合 率 更 高 ， 探 写 速度 更 快 。 但 是 ， 底 
层 单 元 的 栅 极 更 薄 ， 所 以 数据 保存 期 更 短 。 


2) 单元 模具 厚度 减 小 融 来 的 问题 。 跟 二 维 闪 存 类 似 ， 随 着 工艺 一 
代 一 代 达 代 ， 最 小 尺寸 也 在 不 断 减 小 ， 所 以 蛙 元 模具 厚度 不 断 减 小 ， 单 
元 间 的 干扰 也 得 到 了 增强 。 





3.1.6 Charge Trap 型 闪存 


这 里 说 的 CT， 不 是 医院 里 面 的 CT， 而 是 闪存 的 一 种 技术 一 一 
Charge Trap。 最 近 沉 行 一 句 话 “生活 不 只 是 眼前 的 苟且 ， 还 有 诗 和 远 
方 "”。 套 用 一 下 ， 闪 存 不 只 有 Floating Gate， 还 有 Charge Trap。 中 文 可 以 
翻译 成 电 阱 ，CIT 像 个 陷阱 一 样 ， 把 电荷 困 在 里 面 存 起 来 。 


施 敏和 他 的 搭档 在 MOSFET 中 间 加 了 一 个 浮 栅 极 ， 创 造 了 内 存 的 历 


史 。 此 后 有 牛人 在 想 ， 你 中 间 加 的 是 浮 栅 极 ， 是 导体 ， 那 我 换个 绝缘 体 
怎么 样 ? 于 是 ，CT 技 术 的 晶体 管 诞生 了 ， 如 图 3-20 所 示 。 


控制 栅 极 
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衬 底 
图 3-20 浮 栅 品 体 管 与 CT 品 体 管 对 比 
CT 与 浮 机 最 大 的 不 同 是 存储 电 稚 的 元 素 不 同 ， 后 者 是 用 导体 存储 





电荷 ， 而 前 者 是 用 高 电荷 捕捉 (Trap〉 密 度 的 绝缘 材料 (一般 为 氮 化 
硅 ，SI3N4) 来 存储 电 人 三。CT 的 绝缘 材料 上 面 束 像 布 了 很 多 陷阱 ， 电 子 
一 旦 陷入 其 中 ， 就 难以 逃脱 ， 而 浮 栅 是 导体 材料 ， 电 子 可 以 在 里 面目 由 
移动 。 有 人 是 这 样 来 形容 两 者 区 别 的 : 浮 栅 就 像 水 ， 电 子 可 在 里 面目 由 
移动 ， 而 CIT 束 像 是 奶 酷 ， 电 子 在 里 面 移动 是 非 第 困难 的 ， 如 图 3-21 所 
Ze 








源 极 漏 极 源 极 iuf 


衬 底 衬 底 
图 3-21 浮 栅 像 水 ，CT 就 像 奶 酷 
为 什么 要 强调 电子 不 容易 移动 ? 








要 知道 ， 浮 栅 唱 体 管 对 浮 栅 极 下 面 的 绝缘 层 很 敏感 ， 该 氧化 物 厚 度 
变 注 (制程 不 断 减 小 导致 的 ) 或 者 老化 (Degradation, 1:655 X 
了 )〉， 浮 栅 极 里 面 存储 的 电子 进出 变 得 容易 。 浮 栅 极 里 面 的 电子 可 以 有 自 
由 移动 ， 因 此 对 氧化 层 变 得 敏感 。 如 果 里 面 的 电子 本 来 就 深 陷 其 中 ， 行 
动 困难 ， 即 使 绝缘 层 老 化 ， 电 子 还 是 不 容易 出 来 。 因 此 ， 相 对 浮 栅 晶体 
管 来 说 ，CT 的 一 个 优势 束 是 : 对 隧道 氧化 层 不 敏感 ， 当 厚度 变 注 或 者 
擦 除 导致 老化 时 ，CT 表 示 压 力 不 大 。 


浮 要 晶体 管 的 浮 栅 极 材 料 是 导体 ， 任 何 两 个 彼此 绝缘 且 相 隔 很 近 的 
导体 间 都 会 构成 一 个 电容 器 。 因 此 ， 任 何 两 个 存储 单元 的 浮 顶 极 都 构成 
DEAR, -ARPAN D NAELA A SIENER GTA 

荷 的 变化 。 


一 个 浮 栅 极 与 其 附近 的 浮 栅 极 之 间 ， 都 存在 耦合 电容 〈 见 图 3- 
22) ， 这 个 电容 大 小 与 彼此 之 间距 离 成 反比 : 距离 越 短 ， 电 容 越 大 ， 彼 
此 影响 越 大 《回想 一 下 初中 物理 知识 ， 平 板 电容 器 电容 公式 
C=gS/4rkd， 其 中 d 就 是 平板 之 间距 离 ) 。 随 着 闪存 制程 减 小 ， 存 储 单元 
之 间 影 响 越 来 越 大 。 因 此 ， 存 储 单元 间距 也 是 影响 制程 继续 往 前 的 一 个 
r 
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图 3-22 TEAM ARE I ROSA 
与 浮 机 晶体 管 相 比 ，CT 擦 写 电压 可 以 更 小 。 为 什么 ? 


CT 和 浮 栅 唱 体 管 对 比 图 如 图 3-23 所 示 ， 虽 然 这 只 是 个 示意 图 ， 但 
CT 实际 上 确实 比 浮 栅 唱 体 管 更 矮 : 控制 极 到 衬 底 之 间 的 距离 短 。 因 
此 ， 要 产生 相同 的 隧道 电场 ， 加 在 控制 极 的 电压 可 以 更 小 〈《E=U/d) 。 
更 小 的 写 电 压 ， 使 得 隧道 氧化 层 压 力 更 小 ， 因 此 绝缘 氧化 层 损 耗 也 慢 。 
当然 ， 还 会 更 省 电 。 


CT 相 比 浮 机 晶体 管 有 很 多 优势 ， 如 上 面 提 到 的 ， 对 隧道 氧化 层 要 
求 不 是 那么 苛刻 ; 更 小 的 存储 单元 间距 ， 隧 道 氧化 层 磨损 更 慢 ， 更 市 
能 ;工艺 实现 容易 ;可 以 在 更 小 的 尺寸 上 实现 。 但 是 ，CT 也 不 能 完 
胜 。 在 Read Disturb 和 Data Retention 方 面 ，CT 闪 存 就 不 如 浮 栅 极 闪 存 。 


CT 技术 现在 主要 是 应 用 在 3D 内 存 上 。 如 今 除 了 美光 使 用 浮 栅 极 技 
术 外 ， 其 他 主流 内 存 丙 家 都 是 用 CT 技术 来 制造 3D 闪 人 存 。 
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图 3-23 “CT 和 浮 栅 晶体 管 对 比 


3.1.7 3D XPoint 








闪存 用 在 固态 硬盘 上 ， 使 用 SATA 接 口 ， 要 想 更 快 可 用 SAS 接 口 ， 
甚至 PCIe 接 口 。 其 实 最 快 的 还 是 DRAM， 可 以 支持 字 节 级 别 的 访问 ， 但 
是 DRAM 上 的 数据 如 果 不 通电 ， 马 上 就 于 了 。 所 以 现代 计算 机 同时 使 用 
DRAM 和 闪存 存储 数据 。 

最 新 的 Intel Haswell-E/Broadwell 处 理 器 兼容 的 DDR4 内 存 ， 读 写 速 
度 可 达 61GB/s 和 46GB/s， 而 一 个 通道 的 PCIe SSD 在 理论 上 最 高 只 能 到 
1GB/s (PCIe 3.0) 或 者 0.5GB/s (PCIe 2.0) ， 一 般 SSD 用 4 个 通道 ， 就 是 
4GB/s 或 2GB/s。 更 慢 的 SATA 理 论 上 最 高 是 600MB/s。 


当然 ， 机 械 人 硬盘 就 非常 慢 了 ， 西 部 数据 的 VelociRaptor 机 械 硬盘 顺 
序 读 写 速度 分 别 为 215MB/s 和 140MB/s。 


所 以 ， 尽 管 PCIe SSD 相 比 机 械 硬 盘 快 20 多 倍 ，DDR4 却 是 它 的 十 几 
倍 。 最 好 是 能 找到 和 DRAM 速 度 一 样 ， 数 据 却 不 会 因 掉 电 而 丢失 的 存储 
器 。 江 湖上 有 这 么 多 自称 有 才 的 大 侠 : 

JL HS: ReRAM; 

铁 电 存储 器 : FeRAM; 

磁 阻 RAM: MRAM; 

. 相 变 存储 器 : PRAM, PCM; 

导电 桥接 RAM: cbRAM， 又 称 可 编程 金属 元 存储 器 PMC; 

:SONOS RAM: Silicon-Oxide-Nitride-Oxide-Silicon; 

-导电 金属 氧化 物 存储 器 : CMOx. 


图 3-24 所 示 是 各 种 新 型 存储 器 的 容量 成 长 之 路 ， 目 前 比较 成 熟 的 是 
相 变 存储 器 PCM_ PRAM。 


Itel 的 好 友 Micron 一 直 以 来 在 PCM 上 花 了 很 多 钱 ，2013 年 宣布 实现 


了 量 产 。Micron 还 把 PRAM 用 到 了 诺基亚 的 Asha 手 机 里 面 ，1Gb 的 容 
量 ， 写 速度 高 达 400MB/s。 不 过 诺基亚 手机 的 新 东家 微软 说 ，Micron 的 
We 
是 高 性 能 。 
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图 3-24 ”新 型 存储 器 容量 增长 


所 谓 的 相 变 存储 器 ， 就 是 在 原子 级 别 发 生 了 相 变 ， 利 用 这 个 来 存储 
数据 。 束 像 是 玻璃 经 过 相 变 成 了 晶体 。 这 还 是 很 好 理解 的 ， 想 想 我 们 最 
常见 的 水 ， E UE 但 是 温度 降低 后 ， 束 发 生 相 变 ， 
Jy F4 党 定 的 晶体 结构 。 如 图 3-25 所 示 ， 左 
边 是 玻璃 态 边 是 晶体 态 = 明显 ， 晶体 态 更 整齐 。 
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图 3-25 ” 相 变 晶体 原理 


物理 原理 讲 完 了 ， 下 面 开 始 讲 电气 原理 。 不 像 DRAM 里 面 有 品 体 
管 ，PCM 其 实 是 通过 一 种 微小 的 电阻 作用 使 得 玻璃 融化 ， 相 变 为 晶体 。 
技术 日 新 月 异 ， 现 在 人 类 已 经 能 高 效 地 控制 这 种 物理 作用 了 ， 曾 经 写 需 
要 几 微 秒 ， 读 需要 几 纳 秒 ， 现 在 PCM 已 经 能 到 皮 秒 的 量 级 了 ， 也 就 是 纳 
秒 的 1000 分 之 一 ， 即 10-1 秒 。 


来 看 看 PCM 和 常见 存储 器 的 对 比 。 表 3-3 中 PCM 的 数据 还 在 优化 ， 
最 新 的 器 件 读 写 速度 比 表 格 里 面 快 多 了 ， 里 面 的 速度 不 是 总 线 数据 传输 








速度 ， 而 是 存储 介质 的 读 写 速度 。 这 个 表格 的 数据 比较 旧 ， 主 要 还 是 对 
存储 器 在 功 耗 、 寿 命 、 功 能 等 方面 进行 比较 。 可 以 看 出 ，PCM 的 特点 : 


. 掉 电 数据 不 丢失 ; 
-可 以 按照 字 节 访问 ， 


写 之 前 不 需要 擦 除 操作 
- 功 耗 低 ， 和 闪存 差不多 ; 
读 写 速度 快 ; 
.寿命 远 长 于 闪存 。 
表 3-3” 几 种 存储 器 特性 对 比 


特性 q w EEPROM NOR Flash NAND Flash DRAM 


Tf i X | 除 
软件 复杂 性 
功 耗 l n 


Intel 开 发 的 相 变 存储 器 使 用 了 硫 属 化 物 CChalcogenides) ， 这 类 材 
料 包含 元 素 周 期 表 中 的 氧 / 硫 族 元 素 。Numonyx 的 相 变 存储 器 使 用 一 种 
TEA EE TAARE (Ge2Sb2Te5) ， 多 被 称 为 GST。 现 今 大 多 数 
公司 在 研究 和 发 展 相 变 存储 器 时 都 使 用 GST 或 近 括 似 的 相关 合成 材料 。 


如 图 3-26 所 示 ，GST 材 料 随 着 温度 的 上 升 ， 会 从 最 左边 的 无 定形 态 
转变 为 右边 的 规则 晶体 结构 ， 而 电阻 率 也 不 断 下 降 。 这 还 是 很 好 理解 
的 ， 越 有 规则 ， 导 电 性 能 就 越 好 ， 电 阻 越 小 。 但 是 ， 降 温 的 过 程 中 电阻 
值 却 不 是 可 逆 的 ， 是 底下 那 条 直线 。 有 半导体 经 验 的 人 马上 束 明 白 了 ， 
我 们 要 知道 数字 电路 之 所 以 能 表示 1 和 0， 束 是 因为 有 双 稳 态 ， 有 两 个 不 









简单 

















可 逆 的 稳定 状态 。 这 种 相 变 材料 恰好 有 这 种 特性 ， 所 以 就 能 用 来 表示 1 
和 0 了， 也 束 能 存储 数据 了 。 
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Kl3-26 ”GST 材料 状态 随 温度 变化 图 


图 3-27 所 示 是 一 个 PCM 存 储 单 元 ， 读 的 时 候 我 们 只 要 测量 GST 上 面 
金属 节点 的 电压 就 知道 了 ， 晶 体态 时 电阻 低 、 电 压低 ， 无 定形 态 时 电阻 
高 、 电 压 高 。 其 实测 电阻 就 是 测 电 压 ， 假 如 底部 接地 ， 那 么 低 阻 时 顶点 
e a a a IIS digssim d 
IRIRI” 


那 写 怎么 弄 呢 ? 图 3-27 所 示 中 ， 柱 子 就 是 加 热 器 ， 通 过 电流 之 后 加 
热 GST， 导 致 它 发 生 相 变 ， 不 过 在 不 同 的 温度 下 ， 经 过 一 定时 间 ， 相 变 
的 结果 不 一 样 。 如 图 3-28 所 示 ， 高 坎 Tm 下 短 脉冲 加 热 从 晶体 态 变 成 无 
定形 态 ， 较 高 温 Tx 长 脉冲 加 热 时 从 无 定形 态 变 成 晶体 态 。 图 3-29 所 示 是 




















读 写 的 温度 时 间 控制 波形 。 
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图 3-28 不 同 温 度 脉冲 对 相 变 的 影响 


我 们 知道 闪存 里 面 有 Bitline 和 WordLine， 通 过 这 两 个 组 成 的 矩阵 来 
管理 上 亿 个 存储 单元 。 图 3-30 所 示 是 PCM 的 Bitline 和 WordLine 结 构 ， 通 
过 两 条 线 可 以 精确 控制 每 一 个 单元 。 写 的 时 候 控 制 电流 的 大 小 来 加 热 完 
成 相 变 ; 读 的 时 候 通过 测量 Bitline 的 电压 值 就 能 知道 是 低 阻 还 是 高 阻 ， 
从 而 获得 0、1 值 。 


要 了 解 更 多 ， 请 查看 Numonyx 公 司 Greg Atwood 写 的 论文 《Phase 
Change Memory: Development Progress and System Opportunities》 和 
dailytech 网 站 上 Jason Mick 写 的 博客 《Exclusive: If Intel and 
Micron's"Xpoint"is 3D Phase Change Memory, Boy Did They Patent It) 。 
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图 3-29 ” 读 写 操作 通过 温度 时 间 控 制 完成 功能 


A-A' AX XL[X 





Wordline 


TI 





EM A 
mitt 
e 


- 
N-Bas 





图 3-30 PCM 组 织 结构 


32 ”闪存 实战 指 两 
32.1 异步 时 序 


闪存 接 口 有 同步 异步 之 分 ， 一 般 来 说 ， 有 异步 传输 速率 慢 ， 同 步 传输 
速率 快 。 腊 步 接 口 没有 时 钟 ， 每 个 数据 读 由 一 次 RE_n 信 号 触及， 每 个 
uc. QURE 号 触发 。 同 步 接口 有 一 个 时 钟 信和 号， 数据 读 写 和 
时 钟 同 步 。 


我 们 先 来 看 看 ONFI2.3 协 议 规定 的 一 个 典型 的 内 存 蕊 片 管 脚 图 ( 见 
图 3-31) 。 这 个 已 厂 对 外 输出 数据 位 宽 为 8bit，Ssync 是 同步 ，Async 古 
异步 。 








比较 一 下 两 种 接口 下 的 管 脚 定 义 ， 大 部 分 都 是 一 样 的 ， 区 别 就 是 表 
3-4 中 所 示 的 四 类 信和 号。 后 面 我 们 看 看 同步 和 异步 的 时 序 束 能 了 解 为 什 
么 这 些 信 号 不 一 样 了 。 


先 来 看 看 异步 数据 写 入 的 时 序 图 〈 见 图 3-32) 。 











Ssync Async Async Ssync 
R R 1 Q 48 VssQ VssQ 
Vpp Vpp 2 47 R R 
VDDi VDDi 3 46 R R 
R/B3 n R/B3 n 4 45 R R 
R/B2 n R/JB2 n 5 44 107 DQ7 
RIB1n RB1n 6 43 106 DQ6 
R/BO n R/BO n 7 42 — 105 DQ5 
WRn REN 8 41 = 104 DQ4 
CEO n CEO n 9 40 R R 
CE1 n CE1 n 10 : 39 VccQ VccQ 
R R 11 48-pin TSOP 38 VSP1 VSP1 
Vcc Vcc 12 37 Vcc Vcc 
Vss Vss 13 and 36 Vss Vss 
CE2n  CE2n 14 ETE 35 VSP?  DQS 
CE3 n CE3 n 15 48 pin WSOP 34 VccQ VccQ 
CLE CLE — :R R 
ALE ALE 103 DQ3 
CLK WE n 102 DQ2 
WP. n WP n 101 DQ1 
VSP3 VSP3 100 DQO 
ENi ENi R R 
ENo ENo O R R 
Vpp Vpp L— R R 
R R VssQ VssQ 








图 3-31 NEGR EARKI 
表 3-4 同步 异步 管 脚 定义 对 比 











图 3-32 ”异步 写 数 据 时 序 图 
上 图 中 有 5 个 信和 号 
:CLE: Command Latch Enable，CLE 有 效 时 IOX 发 送 命令 。 


-CE n: Chip Enable， 这 个 信号 用 来 选 通 一 个 逻辑 上 的 心 片 一 一 
Target。 为 什么 说 是 逻辑 上 的 心 片 ? 因为 物理 心 片 里 面 封装 了 很 多 
Target， 每 个 Target 都 是 完全 独立 的 ， 只 是 有 可 能 共享 数据 信号 ， 所 以 
通过 CE_n 来 选择 当前 数据 传输 的 是 哪个 Target， 业 内 一 般 把 Target 叫 作 
CE. 





"WE n: Write Enable， 写 使 能 ， 这 个 信号 是 用 户 发 给 闪存 的 ， 有 效 
时 意味 着 用 户 发 过 来 的 写 数据 可 xd f. 


-ALE: Address Latch Enable，ALE 有 效 时 IOx 发 送 地 址 。 
IOx: 数据 总 线 。 

同时 有 很 多 时 间 参 数 ， 这 里 只 介绍 几 个 关键 的 参数 : 
wp: WE_n 低 电 平 脉冲 的 宽度 。 











twH : WE nij 电 平 保持 时 间 o 


twc : tWP 与 tWH 合 起 来 一 个 周期 的 时 间 。 








tps: 数据 建立 时 间 ， 意 思 就 是 8bit 数 据 要 都 达到 稳定 状态 ， 最 多 
这 么 长 时 间 。 

tpp: 数据 稳定 时 间 ， 这 段 时 间 里 数据 信号 稳定 ， 可 以 来 采样 。 

这 样 我 们 来 看 上 面 的 时 序 图 〈 见 图 3-32) ， 数 据 写 入 的 时 候 ， 数 据 
总 线 不 能 传输 地 址 和 命令 ， 所 以 ALE 和 CLE 无 效 。 这 个 Target 有 数据 传 
输 ， 所 以 CE_n 有 效 。 每 一 个 WE_n 周 期 对 应 一 次 有 效 的 数据 传输 。 

再 来 看 看 图 3-33 所 示 的 异步 数据 读 出 时 序 ， 其 中 多 了 两 个 信和 号。 


RE n: 读 使 能 。 这 个 信和 号 是 用 户 发 给 内 存 的， 每 及 一 个 读 使 能 ， 





闪存 束 在 数据 总 线 上 准备 好 数据 ， 等 用 户 采 样 ; 


-RMB_n: Ready/Busy。 闪 存 正在 进行 内 部 读 的 时 候 ，Busy_n 有 效 ， 
当 操 作 完 成 且 数 据 准备 好 之 后 ，Ready 有 效 ， 用 户 可 以 来 读 了 。 

















图 3-33” 寞 步 读数 据 时 序 图 
所 以 ， 用 户 同 闪存 发 了 读 命 令 之 后 ，Ready 信 号 拉 高 ， 意 味 看 数据 


准备 好 了 。 接 着， 用 户 发 RE_n 信 与 去 读数 据 ， 每 个 RE_n 周 期 ， 内 存 发 
送 一 个 有 效 数据 到 数据 总 线 上 ， 供 用 户 采 样 ， 如 图 3-33 所 示 。 








3.2.3 ”同步 时 序 


同步 时 序 最 重要 的 两 个 信号 是 时 钟 CLK 和 DQS。 现 在 的 闪存 基本 都 
采用 了 DDR (Double Data Rate) 技术 ， 就 是 说 每 个 时 钟 周期 传输 两 拨 
数据 。 图 3-34 是 同步 模式 下 的 数据 写 入 时 序 图 ， 介 绍 一 下 几 个 信号 。 

-CLK: 时 钟 。 时 钟 信 号 由 用 户 产 生 ， 在 时 钟 信号 的 上 升 沿 和 下 降 
沿 都 有 数据 被 触发 ， 实 现 DDR， 意 味 着 100MHz 的 时 钟 频 率 数 据 传输 速 
率 是 200MT/s。 

-W/R n: Write/Read_n。 写 的 时 候 高 电 平 ， 读 的 时 候 低 电 平 。 

:DQS: Data Strobe。DQS 用 来 区 分 出 每 个 数据 传输 周期 ， 便 于 接收 
方 准确 接收 数据 。 读 数据 时 ，DQS 由 闪存 产生 ，DQS 上 下 沿 和 数据 对 
齐 。 与 数据 时 ，DQS 由 用 户 产生 ，DQS 中 间 对 应 数据 的 中 间 稳 定 区 域 。 
所 以 ，DQS 可 以 看 成 数据 的 同步 信和 号。 

:DQ[7: 0]: 数据 总 线 。 

我 们 再 来 看 看 几 个 关键 的 时 间 参 数 。 

tears: CLE、W/R_n 和 ALE 的 建 并 时间。 


poss : 数据 输入 到 第 一 个 DQS 跳 变 沿 的 时 间 。 


SH 
























SNS LZ 


: : twes 


CX X 


图 3-34 同步 写 数 据 时 序 图 


了 解 了 各 种 信号 和 时 间 参 数 ， 我 们 就 能 看 懂 上 面 的 数据 写 入 时 序 
图 。CLE 和 ALE 同 时 有 效 之 后 的 第 一 个 CLK 上 升 沿 ， 数 据 开始 准备 并 输 
出 。 经 过 tDQSS 时 间 后 ，DQS 开 始 跳 变 ， 并 且 跳 变 沿 位 于 DQ 数 据 信 号 
的 稳定 位 置 。 之 后 每 半 个 时 钟 周 期 ， 输 出 一 组 数据 。 


再 来 看 看 下 面 的 读数 据 时 序 图 CLEIS-350 ， 和 写 入 差不多 ， 只 不 
过 W/R_n 信 号 是 低 电 平 ， 同 时 DQS 跳 变 沿 和 数据 上 升 沿 同步 。 














ka» strt for next 
nan-idle cycle 


Data Transitioning BS] Device Driving 
图 3-35 ”同步 读数 据 时 序 图 


3.2.3 ”闪存 命令 集 


固态 硬盘 主 控 是 通过 一 A uc fis DE 
芯片 都 定义 了 其 支持 的 命令 ， 以 ONFI 2.3 协 议 为 例 ， 它 定义 的 命令 如 表 
3-5 所 示 。 用 户 要 使 用 这 些 功 能 时 发 送 命令 即 可 ， 比如 读数 据 ， 就 发 送 
00h 一 30h， 不 过 具体 命令 时 序 和 使 用 方式 要 看 专门 的 定义 。 


下 面 介绍 一 下 几 个 比较 常用 的 命令 : 


"Read: 00 一 30h， 读 数据 。 读 一 个 Page 数 据 用 这 个 命令 。 





-Read Multi-plane: 00 一 32h， 同 时 读 多 个 Plane 的 数据 。 多 个 Plane 
各 读 1 个 Page。 


"Change Read Column: 05h 一 E0h， 修 改 读 列 地 址 。Read 命 令 从 闪 
存 介质 读 出 一 Uc Ue tue 一 个 Page 一 般 是 
8KB 或 者 16KB， 但 是 用 户 不 一 需要 所 有 数据 ， 所 以 通过 这 个 命令 来 
修改 传输 数据 的 偏 移 地 址 。 从 某 个 Eage 内 偏 移 地 址 开始 进行 数据 传输 - 

.Block Erase: 60h—DOh, 41E[f&—-^ Block. 

"Read Status: 70h， 查 看 最 近 一 次 操作 的 结果 是 成 功 还 是 失败 。 


-Read Status Enhanced: 78h， 它 和 70b 有 什么 区 别 ? 它 是 用 在 Multi- 
LUN 操 作 的 状态 查看 ， 可 以 指定 查看 哪个 LUN 的 状态 。 


Page Program: 80h 一 10h， 写 一 个 Page 数 据 。 





Page Program Multi-plane: 80h 一 11h， 同 时 写 多 个 Plane 的 数据 ， 写 
性 能 可 以 翻 几 倍 。 

.Read ID: 90h， 可 以 读 到 在 JEDEC 注 册 的 Manufacturer ID 和 Device 
ID. 


-Read Parameter Page: ECh， 可 以 读 到 这 个 CE 的 各 种 配置 参数 ， 比 
人 
哪 一 种 等 。 








Get Features/Set Features: EEh/EFh， 这 两 个 命令 给 用 户 提 供 设 定 
一 些 参数 的 接口 ， 比 如 设置 同步 异步 或 者 选择 传输 速率 。 


表 3-5 ”闪存 命令 集 


ES ome am] 
Read 3 Block Erase Multi-plane 
Read Multi-plane [o| oo | Read Status 

Copyback Read lo 0h | 33 Read Status Enhanced 
Change Read Column Page Program 

Change Read Column Enhanced o| 05 | Page Program Multi-plane 
Read Cache Random [o| oo | Page Cache Program 
Read Cache Sequential lo 3h | Copyback Program 
Read Cache End [o| GBh | Multi-plane 

Block Erase Small Data Move 


CES ETIERET] : 
Change Write Column Get Features 
Change Row Address |o | S | Set Features 
Read ID 
Read Parameter Page Synchronous Reset 
Read Unique ID |o [| ED | 


不 同 的 内 存 所 文 持 的 命令 有 所 差异 。 用 户 应 该 严格 按照 闪存 作 片 官 
方 手 册 与 内 存 通信 。 
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32.4 闪存 寻 址 


了 解 基本 命令 的 时 序 之 前 ， 我 们 再 来 复习 一 下 闪存 内 部 的 结构 。 图 
3-36 所 示 是 一 个 Target， 就 是 我 之 前 说 的 一 个 可 以 独立 工作 的 逻辑 芯 
片 。 它 包含 2 个 LUN， 每 个 LUN 有 2 个 Plane， 每 个 Plane 有 很 多 Block， 每 
个 Block 又 有 很 多 Page。 





Block 0 Block 0 Block 1 


Block 2 Block 3 


Logical Unit 1 


o 
E 
E 
2 
E] 
9 
3 


Block B Block B+1 Block B Block B+1 


Page Register Page Register Page Register Page Register 


Plane Plane Plane Plane 
Address 0 Address 1 Address 0 Address 1 


图 3-36 ”闪存 内 部 架构 
为 了 访问 这 些 资 源 ， 内 存 里 面 使 用 了 行 地 址 (Row Address) 和 列 





地 址 (Column Address) . AJ Page SB EHE. ONF 
中 ， 行 地 址 的 定义 如 图 3-37 所 示 ， 从 高 位 到 低位 依次 为 LUN、Block 和 
Page 地 址 ， 至 于 具体 位 宽 ， 则 和 每 个 芯片 的 容量 有 关 。 


MSB LSB 


MES MEME Block Address —— MEE EC 


图 3-37 ”闪存 地 址 划分 


估计 你 要 开始 问 了 : Plane 在 哪里 ? 如 图 3-38 所 示 ，Plane 是 在 Block 
地 址 的 最 低位 。ONFI 要 求 Multi-plane 操 作 的 时 候 ， 每 个 Plane 的 Page 地 
址 必须 相同 ，Block 地 址 不 同 的 内 存 要 求 不 一 样 。 比 如 InteMMicron 和 东 
艺 的 闪存， 在 Multi-plane 操 作 时 ， 可 以 是 不 同 的 Block， 但 是 三 星 的 内 
存 ， 要 求 几 个 Plane 操 作 的 Block 地 址 要 相同 。 因 为 占 的 是 Block 地 址 的 最 
低 几 位 ， 所 以 进行 Multi-Plane 的 时 候 ，Plane 一 般 有 奇偶 之 分 。 











MSB LSB 
LUN Address lock Address: CALLES 
Plane 
Address bit(s) 


[3-38 ”Plane 地 址 位 


3.25 dE. 5. BHY 


读 时 序 如 图 3-39 所 示 ， 在 用 尸 发 送 命令 00 一 30h 之 间 传 输 了 所 读 的 
地 址 ， 包 括 2 个 列 地 址 和 3 个 行 地 址 。 发 完 命令 后 ，SR[6] (Status 
Register, Ju afa. bit 6) 状态 转 为 Busy， 经 过 一 段 时 间 之 后 SR[6] 
状态 转 为 Ready， 数 据 就 可 以 读 了 。 














Cycle Type CMD HADDRHADDRHADDRADDR HADDR H CMD DOUTH DOUTH DOUT 
DQx -( oo H ci H C2 H RI H R2 H R3 








SR[6] 


图 3-39 AFF 


写 时 序 如 图 3-40 所 示 ， 用 户 发 了 80h 命 令 之 后 ， 发 送 写 地 址 ， 一 般 
列 地 址 是 0， 因 为 要 把 一 个 Page 写 满 ， 如 果 不 从 头 开 始 写 满 一 个 Page， 
往往 会 导致 数据 出 错 。 发 完 地 址 tADL 时 间 之 后 ， 开 始 传输 数据 到 闪存 
的 缓存 。 数 据 传 完 ， 发 送 命令 10h， 闪 存 蕊 片 开 始 向 介质 写 入 数据 ， 
SR[6] 状 态 为 Busy， 在 写 操 作 完 成 后 状态 转 为 Ready。 


擦 除 比 较 简 单 ， 如 图 3-41 所 示 ， 在 命令 60h 和 D0h 之 间 发 送 LUN 和 和 
Block 行 地 址 即 可 (因为 擦 除 是 以 Block 为 单位 〉。 


Cycle Type CMD ¥ ADDRXADDR X ADDRXADDR¥ADDR}H DIN NM DIN X DIN A DIN ¥ CMD j————————— 
t 
ADL | 1 

3 ... 











[3-40 5B 


Cycle Type ADDR ADDR ADDR CMD 





图 3-41 ” 探 除 时 厅 


3.2.6 ONEFI 与 Toggle 协 议 之 争 


前 面 讲 的 主要 都 是 ONFI。 事 实 上 ， 闪 存 不 只 涉及 ONFI 协 议 ， 还 有 
Toggle 协 议 。 


很 久 很 久 以 前 ， 闪 存 的 相关 技术 长 期 垄断 在 三 星 和 东芝 两 个 大 佬 手 
里 ， 其 他 的 从 业者 日 子 过 得 不 那么 舒坦 。 


2002 年 ， 有 个 斯 坦 福 的 高 才 生 苏 么 ， 壮 志 满 怀 地 去 三 星 面试 ， 结 宋 
因为 气质 不 符 没 有 被 录取 。 他 一 气 之 下 推 掉 了 其 他 所 有 公司 的 邀请 ， 回 
到 河南 老家 每 天 闭 门 修炼 。 


三 年 以 后 ， 手 机 、MP3 和 U 盘 对 闪存 的 需求 量 逐 渐 增 大 ， 消 费 类 回 
态 便 盘 市 场 开始 进入 萌芽 期 ， 闪 存 的 香 糕 越 来 越 大 ， 而 当时 各 个 内 存 制 
0 这 导致 主 控 厂商 和 产品 厂商 各 种 麻烦 ， 各 种 
` 适 应 。 


苏 奢 觉得 拯救 苍生 的 时 候 到 了 ， 离 开 老家 加 入 了 Intel 的 战略 发 展 部 
门 ， 说 服 老板 在 当年 旧金山 的 IDF 上 会 盟 天 下 诸侯， 成 立 了 ONFI (Open 
NAND Flash Interface) 联盟 ,准备 以 合 纵 之 法 对 付 三 星 和 东芝 。 
参加 本 次 会 盟 的 有 : 


.闪存 制造 商 : Intel. Micron. Hynix, Sandisk; 























: 主 控 芯片 厂商 : LSI、Marvell、SMI、JMicron、Phison 等 ; 


:存储 产品 厂商 : Adata、Apacer、Biwin、Data I/O, HGST, 
Kingston、Netcom、Seagate、WD 等 ; 


TPAS]: Synopsys 等 。 


三 星 和 东芝 坐 拥 函 谷 之 利 ， 占 据 了 当时 70% 的 市 场 份额 。 但 是 罕 鞋 
KICKI, MX ONFM DEA KAA, OEE. T 
e 首席 工程 师 张仪 没 日 没 夜 地 开会 ， 最 后 拿 出 了 连 横 作 为 对 
NIR: 





.三星 允许 东芝 生产 和 制造 自己 旗下 的 OneNAND 和 Flex-OneNAND 
闪存 芯片 。 


.东芝 开放 自己 的 LBA-NAND 和 mobileLBA-NAND 闪 存 芯片 技术 给 
| 
二 人 全。 


同时 计划 一 起 研发 新 一 代 内 存 产 品 ， 也 束 是 后 来 的 Toggle 
NAND. 


其 后 的 数 年 间 ，ONFI 和 Toggle 两 方 你 来 我 往 ， 互 为 攻守 。 


2014 年 ONFI 发 布 了 4.0 标 准 ， 最 高 速度 达到 了 800MT/s。 最 新 的 
Toggle 标 准 最 高 速度 也 是 800MT/s。 


看 上 去 ONFI 比 较 牛 ， 然 而 从 市 场 份额 上 看 ， 两 大 阵营 几乎 是 五 五 
开 ， 三 星 / 东 过 还 略 占 优势 ， 如 表 3-6 所 示 。 


表 3-6 ”闪存 厂商 市 场 份额 对 比 








m 2015 年 4 季度 营 收 M 2015 年 4 季度 营 收 z 
厂商 pae 市 场 份额 bilan 市 场 份额 
( 百 万 美元 ) ( 百 万 美元 ) 








打 打 杀 杀 不 容易 ， 上 个 图 ， 对 比 一 下 管 脚 定义 ， 其 实 区 别 也 没 那么 
X OLÉ3-42) 。 


同步 ， 异 步 模式 共享 管 脚 


WP N 
CE N 
CLE 
ALE 
WE N 
RE N 
RB N 
DQS 
(双边 沿 ) 
IO[7:0]/DQ[7:0] 


IO[7:0]/DQ[7:0] 





图 3-42 ”ONFI 和 Toggle 管 脚 定义 对 比 
Toggle 同 步 模式 下 不 用 时 钟 ， 写 数据 用 DQS 差 分 信号 跳 变 沿 触发 ， 
DQS 跳 变 沿 输 出 
WR. 


ONFI 同 步 模式 下 有 时 钟 ， 数 据 、 命 令 、 地 址 都 要 与 时 钟 同 步 。 但 
是 DQS、Clock 都 不 是 差分 信号 ， 所 以 边沿 容易 受 干扰 。 


ONFI 3.0 里 面 有 NV DDR2 模 式 ， 这 就 和 Toggle 一 样 了 ， 不 再 用 
Clock， 用 DQS 和 REN 差 分 信号 。 


那么 问题 来 了 ， 他 们 会 在 周 天 子 (JEDEC) 的 努力 下 最 终 走 到 一 起 
吗 ? 














3.8 ”闪存 特性 
3.3.1 闪存 存在 的 问题 


谈 谈 闪存 的 一 些 特点 ， 或 者 说 它 作 为 存储 介质 面临 的 挑战 。 
1. 闪 存 坏 块 








NIFIR (Block) 具有 一 定 的 寿命 ， 不 是 长 生 不 老 的。 前 面 所 到 |， 
当 一 个 内 存 块 接近 或 者 超出 其 最 大 擦 写 次 数 时 ， 可 能 导致 存储 单元 永久 
性 损伤 〈 见 图 3-43) ， 不 能 再 使 用 。 随 着 闪存 工艺 不 断 问 前 发 展 ， 蝇 体 
管 的 尺寸 越 来 越 小 ， 擦 写 次 数 也 变 得 越 来 越 少 。 
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图 3-43 ”闪存 损坏 状态 


闪存 中 的 存储 单元 先天 束 有 一 些 是 坏 的， 或 者 说 是 不 稳定 的 。 并 且 
随 看 闪存 的 不 断 使 用 ， 坏 的 存储 单元 越 来 越 多 。 所 以 ， 用 户 写 入 闪存 的 
数据 ， 必 须要 有 ECC 纠 错 码 保护 ， 这 样 即使 其 中 的 一 些 比特 发 生 反 转 ， 
读 取 的 时 候 也 能 通过 ECC 纠 正 过 来 。 但 大 出 错 的 比特 数 超过 纠 错 能 力 范 
围 ， 数 据 就 会 丢失 ， 对 这 样 的 内 存 块 ， 我 们 应 该 痉 之 不 再 使 用 。 


闪存 先 天 有 坏 块 ， 也 就 是 说 有 出 三 坏 块 。 并 且 ， 用 户 在 使 用 过 程 中 
会 新 添 坏 块 ， 所 以 必须 有 坏 块 管理 机 制 。 


ITFA 
另外 ， 还 应 注意 读 干 扰 (Read Disturb) 问题 。 从 闪存 读 取 原理 来 


看 ， 当 你 读 取 一 个 内 存 页 《Page) 的 时 候 ， 内 存 块 当中 未 被 选取 的 内 存 
页 的 控制 极 都 会 加 一 个 正 电 压 ， 以 保证 未 被 选中 的 MOS 管 是 导 通 的 。 这 
样 问 题 就 来 了 ， 频 每 地 在 一 个 MOS 管 控制 极 加 正 电压 ， 就 可 能 导致 电子 
被 吸 进 浮 栅 极 ， 形 成 轻微 写 ， 从 而 最 终 导致 比特 翻转 ， 如 图 3-44 所 示 。 
但 是 ， 这 不 是 永久 性 损伤 ， 重 新 擦 除 内 存 块 还 能 正常 使 用 。 要 注意 的 
Lp EE 内存 块 中 的 其 他 内 存 页 ， 而 非 读 取 的 内 存 页 
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图 3-44” 读 干扰 原理 


SZ T4 


除了 读 干 扰 会 导致 比特 翻转 ， 写 干扰 (Program Disturb) 也 会 导致 
比特 翻转 。 还 是 要 回 到 闪存 内 部 的 写 原理 上 来 ， 如 图 3-45 所 示 。 
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图 3-45” 写 干扰 原理 


我 们 写 一 个 内 存 页 的 时 候 ， 数 据 是 0 和 1 混合 的 。 由 于 擦 除 过 的 闪存 








块 所 有 的 存储 单元 初始 值 是 1， 只 有 写 0 的 时 候 才 真正 需要 操作 。 如 图 3- 
45 所 示 ， 方 框 里 的 单元 是 写 0， 即 需 要 写 的 ， 圆圈 里 的 单元 的 代表 写 1， 
并 不 需要 写 操作 。 我 们 这 里 把 方 框 里 的 单元 称 为 Programmed Cells, 
圈 里 的 单元 称 为 Stressed Cells。 写 某 个 闪存 页 的 时 候 ， 我 们 是 在 其 
Wordline 控 制 极 加 一 个 正 电压 (图 3-47 中 是 20V) 。Programmed Cells 所 
在 的 String 是 接地 的 ; 不 需要 写 的 单元 所 在 的 String 接 一 个 正 电压 《图 3- 
47 中 为 10V) 。 这 样 最 终 产 生 的 后 琳 是 ， Stressed Cell 也 会 被 轻微 写 。 与 
该 干扰 不 同 的 是 ， 写 干扰 影响 的 不 仅 是 同一 个 内 存 块 当 中 的 其 他 闪存 
页 ， 上 自身 闪存 页 也 会 受到 影响 。 相 同 的 是 ， 都 会 因 不 期 望 的 轻微 写 导致 
比特 翻转 ， 都 会 产生 非 永久 性 损伤 ， 经 擦 除 后 ， 闪 存 块 还 能 再 次 使 用 。 


4. 存 储 单元 间 的 耦合 











还 有 一 个 问题 ， 就 是 存储 单元 之 间 的 耦合 影响 CCell-to-Cell 
interference) 。 前 面 提 到 ， 浮 栅 极 闪存 存储 电荷 的 是 导体 ， 因 此 存储 单 
元 之 间 存 在 耦合 电容 ， 这 会 使 存储 单元 内 的 电 谷 发 生意 外 变化 ， 最 终 导 
致 数据 读 取 错误 。 


5. HE Fip v TS 





存储 在 闪存 存储 单元 的 电荷 ， 如 果 长 期 不 使 用 ， 会 友 生 电荷 泄漏 。 
这 同样 会 导致 非 永久 性 损伤 ， 擦 除 后 内 存 块 还 能 使 用 。 


上 面 说 的 这 些 ， 是 所 有 闪存 面临 的 问题 ， 包 括 SLC、MLC 和 TLC， 
这 些 问题 的 处 理 方法 在 第 4 章 会 进行 介绍 。 不 同 丙 家 的 闪存、 不 同 制程 
的 内 存 ， 以 及 2D/3D 闪 存 ， 还 有 其 特有 的 问题 ， 用 户 在 使 用 时 需要 用 回 
件 克 服 或 者 缓解 这 些 问 题 。 














3.8.0 ”寿命 


我 们 再 来 看 图 3-46 这 张 0 和 1 的 分 布 图 ， 横 轴 是 电压 ， 纵 轴 是 存储 单 
元 的 数量 。0 的 区 域 表 示 被 写 过 的 那些 单元 电压 分 布 区 间 ，1 的 区 域 是 被 
探 过 的 那些 单元 电压 分 布 区 间 。 所 以 说 ， 如 果 要 正确 地 读 到 数据 ，0 和 1 
这 两 个 区 间 要 尽量 分 割 清 楚 ， 保 证 它们 的 主峰 之 间 有 足够 远 的 距离 。 除 
此 之 外 ， 立 值 电压 也 不 能 太 偏 。 回 忆 一 下 读数 据 的 原理 。 











l bit/cell 


# of cells 





图 3-46 ”SLC 电压 分 布 


要 读 的 单元 栅 极 加 0V 电 压 ， 这 时 擦 过 的 晶体 窒 阐 值 电 压 是 -Vt ， 导 
通 ， 沟 道 有 电流 ，Bitline 澳 的 传 感 占 能 够 检测 到 ， 读 到 “1”。 而 经 过 写 的 
晶体 管 闵 值 电压 是 +Vt ， 不 导 通 ， 沟 道 电 流 很 小 ， 读 为 “0”"。 随 着 擦 写 次 
数 的 增加 ， 会 及 生 3 种 故障 : 








擦 过 的 晶体 管 闷 值 电压 变 大 ， 从 -Vi 向 0V 靠 近 ， 这 样 读 的 时 候 沟 道 
电流 变 小 ， 传 感 占 检测 不 到 ， 读 出 错 。 


` 写 过 的 晶体 管 立 值 电压 变 小 ， 从 +Vi 癌 0V 徘 近 ， 有 可 能 会 被 误 检 
测 为 探 过 的 状态 。 


: 写 过 的 晶体 管 闷 值 电压 变 大 (如 图 3-47 所 示 ，>5V， 即 使 控制 极 加 
5V 电 压 ， 它 也 是 截止 的 ) ， 有 可 能 在 其 他 的 单元 读 的 时 候 ， 把 整个 
Bitline 都 给 关 了 。 
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图 3-47 t sum 


浮 栅 品 体 管 对 浮 栅 极 下 面 的 绝缘 层 〈Tunnel 氧 化 物 ) 很 敏感 ， 该 氧 
化 物 厚 度 变 湾 ( 制 程 不 断 减 小 导致 的 ) 或 者 老化 (Degradation, 探 写 次 
数 多 了 ) 对 浮 栅 极 里 面 的 电荷 影响 很 大 。 我 们 之 前 介绍 了 Charge Trap 品 
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探 除 之 后 会 做 校 验 ， 方 法 是 把 所 有 的 Wordline 设 为 0V， 再 去 检测 每 个 
Bitline 的 电流 。 如 宋 东 个 Bitline 电 流 是 0， 就 意味 着 有 个 单元 的 探 除 阔 值 
电压 接近 0V， 导 致 唱 体 管 关 断 。 所 以 这 个 内 存 块 应 该 标 为 坏 块 。 


了 解 了 内 存 寿 命 的 原理 之 后 ， 我 们 再 来 看 看 固态 硬盘 设计 实践 中 怎 
么 解决 这 个 问题 。 一 般 有 以 下 方法 : 


"Wear Leveling: 通过 磨损 平衡 算法 ， 让 所 有 的 内 存 块 均衡 擦 写 ， 
避免 少数 闪存 块 先 挂 挤 ， 导 致 固态 硬盘 容量 下 降 。 


降低 写 放 大 : 写 放 大 越 低 ， 固 态 便 盘 的 磨损 速度 越 慢 。 


用 更 好 的 纠 错 算法 : 纠 错 能 力 越 强 ， 容 许 的 出 错 率 越 高 ， 故 采用 
更 好 的 纠 错 算 法 可 以 延长 硬盘 使 用 寿命 。 
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3.8.8 ”内 存 测试 


为 什么 固态 硬盘 还 涉及 内 存 测试 呢 ? 这 不 应 该 是 内 存 广 商 的 事情 
吗 ? 如 果 你 问 这 些 问题 ， 那 就 是 很 傻 很 天 真 。 理 论 和 现实 总 是 有 差距 
的 ， 固 态 便 盘 内 部 需要 对 闪存 做 测试 ， 原 因 和 是 : 
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:固态 人 硬盘 制造 过 程 中 有 合格 率 问 题 ， 不 能 保证 每 个 内 存世 片 都 焊 
接 得 完美 无 缺 ; 

:固态 硬盘 制造 商 为 了 降低 成 本 ， 会 从 各 种 渠道 获得 低 价 闪存 必 
片 ， 这 些 心 片 质量 没有 保障 ， 需 要 固态 人 硬盘 制造 商 上 自己 筛选 。 

图 3-49 所 示 是 BGA 封装 的 焊 球 X 光 片 ， 可 以 看 出 里 面 有 个 空洞 ， 导 
致电 路 信号 故障 。 所 以 ， 固 态 硬盘 出 厂 前 要 对 每 一 块 闪 存 进行 测试 ， 测 
试 方法 如 下 : 














空洞 





图 3-49 BGA 焊接 空洞 


测试 每 个 CE 是 否 可 以 正常 操作 ， 比 如 Reset、Read ID 等 ; 


.对 每 个 LUN、Plane 进 行 读 写 测 试 ， 要 考虑 到 一 定 的 比特 翻转 率 ， 
看 看 写 入 的 数据 和 读 出 差距 有 多 大 。 写 入 数据 要 选择 不 同 的 数据 类 型 ， 
比如 连续 的 0 或 者 连续 的 1。 存 储 器 件 测试 有 很 多 专用 数据 格式 ， 有 兴趣 
s d 可 翻 看 各 种 论文 ， 也 可 以 参考 著名 的 内 存 测试 软件 memtest 的 测 
试 方法 。 


如 果 工 三 发 现 内 存 有 问题 ， 那 该 怎么 办 ? 还 能 怎么 办 ， 换 好 的 吸 。 
把 心 片 拆 下 来 ， 再 换个 好 的 上 去 ， 对 熟 手 来 说 轻 轻 松 松 。 如 果 是 BGA 封 
装 ， 需 要 专业 设备 辅助 。 那 么 换 下 来 的 芯片 就 这 么 扔 了 吗 ? 能 变 废 为 宝 
吗 ? 肯定 能 ， 比 如 放 到 U 盘 里 。 


一 般 来 讲 ， 从 U 盘 到 消费 级 固态 硬盘 再 到 企业 级 固态 硬盘 ， 对 闪存 
的 要 求 是 逐渐 升 高 的 ， 因 为 写 的 强度 不 断 增 大 。U 盘 也 就 偶尔 用 用 ， 一 
天 写 不 了 多 少数 据 。 目 己 笔 记 本 平时 也 不 会 一 直 写 数据 。 企 业 级 固态 硬 
盘 几 乎 每 时 每 刻 都 在 工作 ， 该 读 写 写 ， 忙 个 不 停 。 所 以 ， 不 要 以 为 几 个 
U 盘 就 能 竣 一 个 固态 人 硬盘 使 用 ， 闪 存 的 质量 是 不 一 样 的 。 企 业 级 固态 便 














盘 用 的 是 最 贯 的 原矿 闪存， 消费 级 固态 硬盘 往往 是 便宜 的 ， 有 很 多 三 家 
从 闪存 广 商 购买 唱 圆 自己 封 测 。U 盘 就 是 最 差 的 内 存 了 ， 其 所 用 怪 卢 来 
目 于 各 种 渠道 ， 成 本 很 低 。 








3.34, MLC 使 用 特性 


对 MLC 来 说 ， 控 除 一 个 内 存 块 的 时 间 大 概 是 几 军 秒 。 内 存 的 读 写 则 





是 以 内 存 页 为 基本 单元 的 。 一 个 内 存 页 大 小 主要 有 4KB、8KB、16KB 几 
种 。 对 MLC 或 者 TLC 来 说 ， 写 一 个 内 存 块 当中 的 内 存 页 ， 应 该 顺序 写 
Page0、Pagel1、Page2、Page3...…….. 禁 止 随机 写 入 ， 比 如 Page2、Page3、 


Page5、Page0...... 为 什么 ? 原因 主要 有 二 : 


一 个 存储 单元 包含 两 个 内 存 页 数据 ， 要 先 写 Lower Page， 再 写 
Upper Page. 


- 相 邻 单元 之 间 有 耦合 电容 ， 工 艺 上 要 求 后 面 的 闪存 页 写 操作 时 前 
面 的 内 存 页 已 经 写 过 。 


但 对 读 来 说 ， 没 有 这 个 限制 。SLC 也 没有 这 个 限制 。 
MLC 有 其 特有 的 一 些 问题 : 


:正如 前 面 提 到 的 ，MLC 最 大 擦 写 次 数 会 变 小 。 这 样 ， 束 更 需要 
Wear Leveling 技 术 来 保证 整个 存储 介质 的 使 用 寿命 。 


.对 MLC 来 说 ， 一 个 存储 单元 存储 了 2bit 的 数据 ， 对 应 着 两 个 Page: 
Lower Page 和 Upper Page。 假 设 Lower Page 先 写 ， 然 后 在 写 Upper Page 的 
过 程 中 ， 由 于 改变 了 整个 单元 的 状态 ， 如 果 这 个 时 候 掉 电 ， 那 么 之 前 写 
入 的 Lower Page 数 据 也 会 丢失 。 也 就 是 说 ， 写 一 个 内 存 页 失败 ， 可 能 会 
导致 另外 一 个 闪存 页 的 数据 损坏 。 


-前面 说 到 ， 不 能 随机 写 。 不 能 先 写 Upper Page， 然 后 再 写 Lower 
Page， 这 点 就 限制 了 我 们 不 能 随意 地 写 。 


` 写 Lower Page 时 间 短 ， 写 Upper Page 时 间 长 ， 所 以 会 看 到 有 些 闪存 
页 写 入 速度 快 ， 有 些 闪存 页 写 入 速度 慢 。 


关于 MLC 的 Lower Page 数 据 损坏 问题 ， 阿 下 还 想 多 说 一 些 ， 这 个 问 
题 其 实 对 于 固态 人 硬盘 控制 占 的 设计 者 来 说 是 个 大 问题 ， 因 为 涉及 数据 可 
靠 性 。 首 先 我 们 来 说 两 条 存储 行业 的 规矩 : 


























一般 在 没有 盘 内 缓存 的 情况 下 ， 我 们 认为 写 到 硬盘 的 数据 如 采 已 
e UA 那么 这 个 数据 就 是 安全 的 。 数 据 写 到 物理 介质 上 就 可 以 
放心 了 。 


如果 数据 在 写 的 过 程 中 发 生 了 异常 挥 电 ， 那 么 该 数据 即使 对 了 也 
可 以 接受 ， 毕 竟 用 户 认为 数据 还 没 写 完 。 


但 是 Lower Page 数 据 损 坏 打破 了 这 个 常识 : 尽管 已 经 成 功 写 到 了 檀 
里 ， 但 是 假如 该 数据 位 于 Lower Page 上 ， 很 不 幸 的 是 ， 恰 好 过 了 不 久 ， 
后 面 有 数据 写 对 应 的 Upper Page 时 发 生 了 异常 挥 电 ， 那 就 会 导致 Lower 
Page 上 已 经 写 好 的 数据 也 被 破坏 。 也 就 是 说 ， 固 态 硬 盘 正 在 写 的 时 候 ， 
如 果 发 生 了 异常 挥 电 ， 有 可 能 会 丢失 之 前 写 入 的 数据 。 


那 该 怎么 办 呢 ? 聪 明 的 消费 级 固态 人 硬盘 研发 工程 师 采 用 了 很 多 技术 
来 防止 这 种 情况 发 生 。 
:只 写 Lower Page: 成 本 比较 高 ， 只 适合 关键 数据 和 土 险 。 


:Lower Page 和 Upper Page 打 包 写 : 每 次 数据 量 多 凌 点 ， 争 取 Lower 
Page 和 Upper Page 都 写 ( 需 要 闪存 文 持 One Pass Programming) 。 


.定期 填充 Upper Page: 消 纤 级 固态 人 硬盘 要 求 省 电 ， 所 以 会 频繁 进入 
省 电 模 式 ， 可 能 安静 个 几 百 昵 秒 就 自动 休 虐 了 。 休 虐 之 前 检查 是 不 是 有 
Lower Page 写 过 了 ， 有 Upper Page 还 没 写 的 情况 ， 就 把 Upper Page 也 写 一 
E 














` 写 Lower Page 数 据 时 ， 备 份 该 数 据 到 别 的 内 存 块 上 ， 直 到 它 对 应 的 
Upper Page 数 据 写 完 。 这 样 即 使 抒 电 导致 Lower Page 数 据 丢 失 ， 也 可 使 
用 备份 数据 进行 还 原 。 


"MLC 内 存 块 当 SLC 块 使 用 ， 强 迫 用 户 数 据 写 到 SLC 块 ， 随 后 以 垃圾 
回收 的 方式 把 数据 从 SLC 闪 存 块 搬 到 MLC 闪 存 块 。 


经 过 上 述 各 种 努力 ， 用 户 的 数据 可 以 做 到 很 安全 ，Lower Page 数 据 
损坏 的 危害 会 降 到 最 低 。 所 以 ， 请 你 放心 ， 使 用 固态 硬盘 是 安全 的 ! 


对 企业 级 固态 硬盘 来 讲 ， 数 据 安全 性 尤其 重要 ， 而 且 要 长 期 开机 ， 
不 能 像 消 费 级 一 样 动不动 就 进入 省 电 模式 。 那 么 ， 怎 样 降低 Lower Page 


数据 损坏 的 危害 ? 一 般 是 在 固态 便 盘 内 配备 大 电容 ， 发 生 异 党 掉 电 后 ， 
大 电容 储存 的 电量 可 以 文 撑 儿 十 坚 秒 ， 保 证 正在 进行 写 操作 的 闪存 把 数 
据 写 完 。 现 在 主流 的 企业 级 固态 硬盘 控制 句 不 仅 能 在 大 电容 供电 的 时 间 
内 把 内 存 正 在 写 的 数据 写 完 ， 还 能 把 缓存 里 的 数据 写 完 ， 最 后 写 一 些 固 
态 人 硬盘 内 部 的 关键 管理 数据 ， 比 如 映射 表 等 。 





3.3.5“” 读 干扰 


记得 几 年 前 我 们 碰 到 一 个 问题 ， 束 是 有 客户 反映 ， 他 们 在 使 用 我 们 
的 固态 硬盘 时 ， 发 现 读 性 能 过 段 时 间 就 有 一 个 比较 大 的 下 降 。 后 来 ， 经 
过 我 们 工程 师 的 努力 ， 发 现 罪 持 祸 首 束 是 读 干 扰 (Read Disturb) 。 最 
后 ， 联 明 的 工程 师 完美 地 解决 了 这 个 问题 。 


读 干 扰 为 什么 会 导致 性 能 下 降 ? 下 面 将 解释 原因 。 


读 干 扰 会 导致 浮 栅 极 进入 电子 。 由 于 有 额外 的 电子 进入 ， 会 导致 唱 
体 管 阔 值 电压 右 移 (Data Retention 问 题 导致 国 值 电压 左 移 ) ， 如 图 3-50 
所 示 。 


HT ia PET BI EL FR Hf f AE Y ARM ERT ， 内 存 内 部 逻辑 如 
果 还 是 按照 之 前 的 参考 电压 加 在 控制 极 上 然后 去 判断 数据 ， 肯 定 会 发 生 
误 判 ， 也 就 是 读 到 错误 的 数据 。 





图 3-50” 立 值 电压 偏 移 








阐 值 电压 右 移 的 速度 ， 也 就 是 读 干 扰 影 响 数 据 的 程度 ， 一 方面 与 读 
该 内 存 块 上 数据 的 次 数 有 关 ， 读 得 越 多 ， 石 移 越 多 ， 影 响 越 大 ;一 方面 





还 跟 内 存 块 的 探 除 次 数 有 关 ， 探 写 次 数 越 多 ， 绝 缘 效果 越 赤 ， 电 子 进 入 
浮 栅 极 束 越 容易 ， 读 干扰 的 影响 也 残 越 大 。 


那么 ， 闪 存 使 用 者 如 何 应 对 读 干 扰 呢 ? 


一 般 做 法 是 记录 每 个 内 存 块 读 的 次 数 ， 赶 在 这 个 数值 达到 病 值 (内 
存 三 家 提供 ) 之 前 ， 把 内 存 块 上 所 有 的 数据 刷新 一 近 〈 读 出 来 ， 探 除 ， 
然后 写 回 ) ， 或 者 把 数据 搬 到 别 的 地 方 。 回 到 开头 那个 问题 ， 读 干扰 为 
什么 会 导致 固态 硬盘 性 能 下 降 ? 就 是 因为 一 个 内 存 块 上 的 数据 读 的 次 数 
太 多 了 ， 固 件 需 要 赶 在 数据 出 错 前 ， 把 整个 内 存 块 数据 刷新 或 者 搬移 ， 
避免 数据 出 错 ， 但 这 会 占用 搬 层 带宽 ， 导 致 主 控 读 写 性 能 下 降 。 


还 有 人 研究 发 现 ， 减 小 Vbass 〈 加 在 没有 被 读 的 那个 Wordline 上 的 电 
压 ) 可 以 组 解读 干扰 。 因 为 Vyass 变 小 ， 电 场 减 弱 ， 吸 入 电子 的 能 力 减 
弱 ， 自 然 能 缓解 读 干 扰 的 影响 。 但 是 ， 一 方面 ， 现 在 闪存 三 商都 没有 开 
放 调 Vuass 电压 的 接口 给 用 户 ; 另 一 方面 ， 过 低 的 Vpass 可 能 导致 读 失 
败 。 该 方法 只 能 起 到 缓解 作用 ， 不 能 从 源头 上 杜绝 读 干 扰 的 影响 。 

















3.8.6 ”闪存 数据 保存 期 


下 面 来 聊 聊 存储 的 数据 能 保存 多 入。 


图 3-51 是 现 藏 于 甘肃 省 博物 馆 的 西汉 天 水 放 马 滩地 图 ， 于 1986 年 在 
甘肃 天 水 放 马 滩 5 号 汉 莫 出土 ， 其 用 纸 是 世界 上 现存 最 早 的 纸 。 根 据 考 
古 专家 的 断定 ， 这 是 一 张 西 汉文 帝 或 景帝 〈 公 元 前 179 年 一 前 143 年 ) 时 
期 的 纸 质 地 图 。 距 今 已 经 有 两 千 多 年 的 历史 ， 变 得 残破 不 全 。 


刘 花 欣 的 小 说 《三 体 》 中 提 到 ， 即 使 是 刻 在 岩石 上 的 巨型 文字 ， 经 
过 几 千 万 年 的 沧海 桑田 ， 也 会 找 不 到 踩 迹 。 


所 以 ， 无 论 用 任何 存储 技术 ， 存 储 的 数据 都 不 能 永远 保存 ， 都 会 有 
个 保存 时 间 。 闪 存 中 ， 数 据 保存 时 间 的 问题 叫 作 Data Retention。 到 了 期 
限 ， 数 据 束 会 出 错 ， 标 志 就 是 从 闪存 读 出 来 的 数据 无 法 用 ECC 纠 错 成 
功 。 我 们 知道 闪存 一 般 有 以 下 错误 : 























图 3-51 世界 上 最 早 的 纸 
电气 问题 ， 比 如 虚 焊 或 者 已 片 故障 ， 叶 致 正 第 命令 无 法 执行 或 者 








数据 错误 率 异 常 高。 这 种 问题 在 内 存 或 固态 硬盘 出 三 测试 时 就 会 被 发 
现 。 


: 读 、 写 、 擦 失败 : 基本 命令 执行 失败 ， 通 过 状态 位 可 以 读 到 结 
果 。 这 些 问题 在 芯片 使 用 过 程 中 也 有 可 能 发 生 ， 但 是 概率 非常 小 。 


.ECC 纠 错失 败 : 其 实 就 是 数据 错误 率 太 高 ， 超 过 了 纠 错 算法 的 纠 
错 能 力 。Data Retention 是 其 中 一 个 元 凶 。 


闪存 存储 的 机 理 是 通过 量子 隧道 效应 ， 电 子 跃 迁 到 浮 栅 层 并 停留 在 
那里 。 随 着 时 间 的 流逝 ， 电 子 还 是 有 一 定 概 率 离 开 译 栅 层 ， 回 到 沟 道里 
面 ， 离 开 的 电子 多 了 就 有 可 能 导致 写 过 的 单元 读 出 来 的 结果 跟 擦 除 过 的 
一 样 ， 也 就 是 说 数据 出 错 了 。Data Retention 和 浮 栅 层 下 面 的 氧化 层 厚度 
有 关 ， 毕 竞 氧化 层 越 厚 ， 电 子 离开 的 概率 越 小 。 有 研究 表明 ， 氧 化 层 厚 
度 如 果 是 4.5nm， 那 么 理论 上 数据 可 以 保存 10 年 。 




















SSDFans 微 信和 群 里 有 一 位 大 牛 群 友 府 宇 (Yu Cai) 博士 ， 他 在 
Carnegie Mellon University 攻 读 博 士 时 专门 研究 内 存 纠 错 ， 后 来 去 LSI 做 
这 方面 的 研发 。 阿 采 这 次 根据 他 的 一 篇 论文 《Data Retention in MLC 
NAND Flash Memory: Characterization, Optimization, and Recovery? 


来 介绍 其 对 闪存 数据 保存 的 分 析 。 


图 3-52 是 闪存 基本 单元 浮 栅 品 体 管 的 截面 图 。 最 上 面 是 控制 层 ， 中 
间 是 浮 栅 屋 ， 浮 机 上 面 是 多 唱 硅 氧化 屋 ， 下 面 是 隧道 氧化 层 。 控 制 电 压 
很 高 的 时 候 ， 会 产生 量子 障 罕 效应 ， 电 子 从 衬 底 Substrate 出 发 ， 罕 过 隧 
道 氧化 层 ， 进 入 浮 栅 保存 起 来 ， 束 完成 了 写 操作 。 反 之 ， 在 控制 层 加 很 
强 的 负电 压 ， 电 子 就 从 浮 栅 量子 隧 穿 ， 回 到 衬 底 ， 这 个 操作 叫 作 探 除 。 
不 过 ， 控 制 层 不 加 电压 的 时 候 ， 氧 化 层 依然 会 产生 一 个 电场 ， 叫 作 本 征 
电场 ， 它 是 由 泽 栅 里 面 的 电子 产生 的 。 在 这 个 电场 的 作用 下 ， 电 子 会 从 
浮 栅 慢 慢 泄露 ， 汇 漏 的 多 了 ， 数 据 就 会 发 生 错 误 。 从 写 入 操作 到 电子 慢 
慢 汇 漏 ， 直 到 数据 出 错 ， 这 个 期 限 叫 作 数据 保存 期 ， 在 SLC 时 代 ， 这 个 
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图 3-52 ” 详 栅 晶体 管 的 本 征 电场 和 TAIT 效 应 


那 为 什么 闪存 用 得 越 入 ， 数 据 保 存 时 间 越 短 呢 ? 这 要 和 怪 一 个 效应 : 
Trap-assisted tunneling (TAT) 。 如 图 3-54 (b〉 所 示 ， 我 们 知道 隧道 氧 
化 层 是 绝缘 的 ， 但 是 随 着 闪存 的 使 用 ， 历 经 很 多 次 的 擦 写 ， 氧 化 层 和 浮 
顶层 的 爱情 终于 要 走 到 终点 了 ， 因 为 经 过 这 么 年 风 风 雨 雨 ， 氧 化 层 老 
了 ， 有 不 少 通过 它 的 电荷 被 淖 留 下 来 ， 绝 缘 体 有 了 导电 性 。 这 样 ， 电 谷 
从 浮 栅 跑 得 就 更 快 了 。 所 以 ， 闪 存 擦 写 次 数 越 多 ， 数 据 保存 时 间 束 越 
a EE n30007X, WIE WAE AR A 
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不 过 ， 和 氧化 层 并 不 总 是 在 截留 电荷 ， 有 时 候 它 拦截 的 电荷 也 会 离 
开 ， 叫 作 Charge de-trapping。 只 不 过 离开 的 既 有 正 电 荷 ， 也 有 负电 和 荷 ， 
所 以 对 靖 值 电压 的 影响 是 双 加 的 。 


那么 ， 怎 样 解决 Data Retention 的 问题 呢 ? 总 不 能 让 用 户 的 数据 放 个 
几 个 月 或 者 几 年 就 丢 了 吧 ? 一 般 固态 便 盘 会 采用 Read Scrub 技 术 ， 或 者 
叫 数据 巡 检 、 扫 描 重 写 技术 等 。 


如 果 你 对 存储 技术 有 所 了 解 ， 那 么 当 你 看 到 Scrub 这 个 词 的 时 候 ， 
首先 肯定 想到 的 是 Sun 公 司 开 发 的 大 名 易 易 的 ZFS (Zettabyte File 
System) 文件 系统 。ZFS 的 设计 者 发 现 ， 有 很 多 用 户 的 数据 长 期 没有 读 
过 ， 更 别 说 被 重 写 了 。 即 使 是 数据 读 取 频 索 的 数据 库 应 用 ， 也 存在 长 期 
不 被 访问 的 数据 ， 它 们 彼 寞 地 骏 在 角落 里 ， 长 期 无 人 问津 。 但 是 ， 不 管 
什么 类 型 的 磁盘 ， 总 是 会 有 概率 发 生 比 特 翻转 ， 导 致 数据 出 错 ， 等 你 需 
要 这 份 数据 的 时 候 ， 错 误 有 可 能 比较 严重 ， 根 本 恢复 不 出 原样 。 在 ZFS 
文件 系统 中 ， 每 个 数据 块 都 有 目 己 的 校 验 码 Checksum， 只 要 被 读 了 ， 
就 可 以 通过 Checksum 发 现 数据 是 否 出 错 ， 提 前 对 出 错 的 数据 块 进行 纠 
错 。 所 以 ，ZFS 提 供 了 一 个 功能 叫 Scrub， 对 文件 系统 进行 扫描 ， 提 前 发 
现 那些 出 错 的 数据 ， 并 纠 错 重 写 。 


固态 人 硬盘 的 Read Scrub 技 术 跟 ZFS 类 似 ， 在 固态 硬盘 不 忙 的 时 候 ， 
按照 一 定 的 算法 ， 扫 描 全 盘 ， 如 果 发 现 某 个 内 存 页 翻转 比特 数量 超过 一 
定 病 值 ， 束 重 写 数据 到 新 的 地 方 。 这 样 做 的 好 处 是 避免 数据 放 太 久 从 而 
导致 比特 翻转 数量 超过 ECC 算 法 的 纠 错 能 力 ， 这 样 能 减少 ECC 不 可 纠 错 
误 。 




















3.4 ”闪存 数据 完整 性 


内 存 的 一 个 特性 惑 是 随 奢 内 存 的 使 用 以 及 数据 存储 时 间 的 变 长 ， 存 
储 在 内 存 里 面 的 数据 容易 发 生 比 特 翻转 ， 出 现 随机 性 错误 。 这 个 问题 随 
着 闪存 制程 的 变 小 越发 严重 。 因 此 ， 使 用 内 存 作为 存储 介质 的 固态 硬 
些 数据 完整 性 的 找 林 来 确保 用 户 数据 可 靠 不 ZUR. J 


:ECC 纠 错 。 

“RAID 数据 恢复 。 

.重读 (Read Retry) 。 
扫描 重 写 技术 (Read Scrub) 。 
-数据 随机 化 。 





3.4.1 读 错 误 来 源 





闪存 数据 发 生 错误 ， 主 要 有 以 下 儿 个 原因 : 
1. 探 写 次 数 增多 
随 痢 闪存 块 探 写 次 数 增多 ， 氧 化 层 逐 渐 老 化 ， 电 子 进 出 存储 单元 越 


来 越 容易 ， 因 此 存储 在 存储 单元 的 电 蓓 容易 发 生 异 常 ， 导 致 数据 读 错 
误 ， 如 图 3-53 所 示 。 
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图 3-53 ”同一 个 内 存 访 厂 内 不 同 内 存 块 在 不 同 寿命 时 的 RBER 





2.Data Retention 


随 着 时 间 的 推移 ， 存 储 在 存储 单元 的 电子 会 流失 ， 整 个 闵 值 电压 分 
布 问 左 移动 ， 导 致 读数 据 的 时 候 发 生 误 判 ， 如 图 3-54 所 示 。 
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图 3-54 WE FB Hs 23 A BEST TRI f Re 由 
3. 读 干扰 


读 一 个 wordline 数 据 时 ， 需 要 施加 Vpass 电压 在 其 他 Wordline 上 ， 导 
致 其 他 闪存 页 发 生 轻 微 写 。 如 果 读 的 次 数 过 多 ， 轻 微 写 累积 起 来 就 会 使 
E omen 导致 读数 据 时 候 发 生 误 判 ， 即 读数 据 错误 ， 如 

3-55 WTZR o 
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图 3-55 FHA BU EL FR Hs fd 
4. 存 储 单元 之 间 干 扰 
由 于 存储 电子 的 浮 栅 极 是 导体 ， 两 个 导体 之 间 构 成 电容 ， 一 个 存储 
单元 电荷 的 变化 会 导致 其 他 存储 单元 电荷 变化 ， 而 受 影 啊 最 大 的 束 是 与 
它 相 邻 的 存储 单元 。 周 围 的 单元 是 不 同 的 状态 时 ， 中 心 单 元 的 阔 值 电压 
是 不 一 样 的 ， 如 图 3-56 所 示 。 
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5. 写 错误 








写 错误 一 般 发 生 在 MLC 或 者 TLC 2-pass C76 5jLower Page， 然 后 再 
写 Upper Page) 写 过 程 中 。 写 Upper Page 的 时 候 ， 它 是 基于 之 前 Lower 
Page 的 状态 ， 然 后 再 写 每 个 存储 单元 到 目标 状态 。 如 果 写 Upper Page 的 
时 候 ，Lower Page 数 据 已 经 出 错 注意 写 Upper 的 时 候 ，Lower Page 的 数 
据 是 不 会 经 过 控制 器 ECC 纠 错 的 ， 写 过 程 发 生 在 闪存 内 部 ) ， 融 会 导致 
存储 单元 写 到 一 个 不 期 望 的 状态 ， 即 发 生 写 错误 。 


数据 一 开始 就 写 错 了 ， 当 然 融 别 指望 读 对 了 。 


TLC 1-pass program 则 没有 这 个 问题 ， 因 为 Lower Page 和 Upper Page 
是 一 次 性 同时 写 入 ， 写 Upper Page 个 依赖 于 Lower Page 数 据 。 当 然 ， 如 
果 一 开始 探 除 状态 就 不 对 ， 那 么 还 是 会 发 生 写 错 误 。 


[1] 本 小 节 图 片 均 来 自 NAND Flash Basics & Error Characteristics : 
Thomas Parnell, Roman Pletka IBM Research-Zurich, Flash Memory 
Summit 2017。 








3.4.0 ”重读 


闪存 有 几 种 缺陷 ， 对 于 电压 分 布 平移 的 问题 尚 可 想 办 法 恢复 ， 因 为 
数据 之 间 还 是 清楚 隔离 的 。 


图 3-57 以 MLC 为 例 ， 每 个 存储 单元 存储 两 个 比特 的 数据 ， 一 共有 四 
种 状态 。 当 四 种 状态 的 电压 分 布 发 生平 移 后 ， 如 果 还 是 采用 之 前 的 参考 
电压 去 读 取 的 话 ， 就 可 能 会 出 现 读 取 数 据 失败 的 情况 。 使 用 重读 技术 
后 ， 我 们 可 以 不 断 改变 参考 电压 ， 来 尝试 找到 可 以 读 出 数据 的 电压 点 ， 
直到 正确 读 出 数据 。 理 论 上 ， 只 要 这 四 种 状态 的 电压 分 布 没有 发 生 重 
合 ， 就 可 以 通过 重读 恢复 数据 。 


还 有 更 复杂 的 重读 ， 叫 作 Advanced Read Retry。 先 读 附 近 的 单元 确 
选择 哪 一 个 。 
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图 3-57 平移 后 电压 分 布 


3.4.3 ECC 纠 错 码 





固态 硬盘 控制 器 上 面 都 有 ECC 纠 错 模 块 ， 有 些 内 存 内 部 也 集成 了 
ECC 纠 错 模 块 。 常 用 闪存 ECC 纠 错 算 法 有 BCH (Bose、Ray-Chaudhuri 与 
Hocquenghem 三 位 大 神 名 字 的 首 字 母 )》 和 LDPC (Low Density Parity 
Check Code) 等 。 目 前 市 面 上 很 多 固态 硬盘 控制 器 上 采用 的 是 BCH， 但 
采用 LDPC 正 成 为 一 种 趋势 。 


用 户 数 据 最 终 都 是 写 在 闪存 页 (Page) 上 面 ， 闪 存 页 空间 除了 用 户 
空间 ， 还 有 额外 的 预 留 空间 ， 这 部 分 空间 可 以 用 来 写 ECC 校 验 数 据 。 用 
户 数 据 大 小 固定 ， 需 要 更 强 的 纠 错 能 力 ， 这 就 需要 更 多 的 ECC 空 间 。 
-e aa 越 多 的 预 留 空 间 束 能 提供 越 强 
JECC 纠 错 能 力 。 


目前 绝 大 多 数 固态 硬盘 都 采用 静态 ECC 纠 错 方 案 ，ECC 纠 错 单 元 
《用户 数据 〉 和 ECC 校 验 数据 大 小 在 整个 固态 硬盘 生命 周期 都 是 固定 
的 ， 也 就 是 说 纠 错 能 力 始 终 保持 不 变 。 由 于 闪存 在 使 用 初期 内 部 发 生 比 
特 翻转 的 概率 小 ， 而 随 着 闪存 的 使 用 ， 出 错 概率 逐渐 变 大 ， 因 此 有 些 固 
态 人 硬盘 开始 采用 动态 ECC 纠 错 方案 : 开始 使 用 更 少 的 纠 错 码 ， 这 样 在 内 
存 的 页 里 面 可 以 存储 更 多 的 用 户 数 据 ; 随 着 固态 硬盘 的 使 用 ， 纠 错 能 
需要 加 强 ， 用 户 数据 在 内 存 页 里 面 占 的 比例 变 小 ， 纠 错 码 所 占 比例 变 
大 。 动 态 ECC 纠 错 方案 就 是 随 着 固态 硬盘 的 使 用 ， 动 态 调 整 其 ECC 纠 错 
能 力 。 动 态 ECC 纠 错 有 什么 好 处 ?如 果 开 始 使 用 更 少 的 ECC 校 验 数 据 ， 
那么 每 个 页 能 写 入 的 用 户 数 据 就 更 多 ， 相 当 于 固态 硬盘 拥有 更 多 的 
OP (Over Provisioning， 预 留 空间 〉， 减 小 了 写 放 大 ; 同时 ， 在 数据 从 
e T a 
小 ， 带 宽 利 用 率 高 。 


其 实 ， 动 态 ECC 的 优势 不 仅 体现 在 随 痢 时 间 的 推移 ECC 纠 错 能 力 会 
发 生变 化 ， 而 且 体 现在 固态 硬盘 的 闪存 位 置 上 每 个 Die 甚 至 每 个 内 存 页 
有 不 同 的 纠 错 能 力 。 在 固态 人 硬盘 闪存 阵列 里 ， 有 些 Die 可 能 质量 好 点 ， 
有 些 Die 可 能 质量 差点 ， 好 的 Die 可 以 用 更 少 的 ECC 纠 错 代 码 ;， 相反 ， 差 
的 Die 就 需要 更 强 的 ECC 纠 错 。 对 MLC 来 说 ，Lower Page 相 对 Upper Page 
更 稳定 一 些 ， 因 此 可 以 使 用 弱 一 些 的 ECC 保 扩 ; 相反 ，Upper Page 则 需 
要 更 强 的 ECC 保 护 。 









































3.4.4 RAID 


当 闪 存 中 数据 比特 发 生 翻转 的 个 数 超出 ECC 纠 错 能 力 范 围 后 ，ECC 
纠 错 就 无 能 为 力 了 。 在 一 些 企业 级 ， 以 及 越 来 越 多 的 消费 级 固态 人 硬盘 
上 ， 都 在 使 用 RAID (Redundant Arrays of Independent Disks) 纠 错 技 
术 。 类 似 磁盘 阵列 ， 固 态 硬盘 内 部 本 质 就 是 一 个 闪存 阵 列 ， 所 以 可 以 借 
鉴 磁 盘 阵 列 技术 来 确保 数据 的 完整 性 。 固 态 便 盘 的 RAID 一 般 采 用 RAID 
Do 





以 图 3-58 所 示 为 例 ， 某 个 固态 硬盘 的 闪存 阵列 由 5 个 Die 构 成 ，Die 0 
一 3 存储 的 是 用 户 数 据 ，Die P 则 存储 校 验 数据 ， 为 Die 0、Die 1、Die 2 
和 Die 3 数据 之 “ 异 或 "?。 假 设 Die 1 上 出 现 ECC 不 可 纠 的 错误 ， 那 么 可 以 
通过 读 取 Die 0、Die 2、Die 3 和 Die P 对 应 位 置 上 的 数据 ， 然 后 做 “ 异 
或 "就 能 恢复 出 Die 1 上 的 数据 。 


cs [oes Hh oes Ms | [s 


图 3-58  RAID 5 


采用 RAID 5 的 固态 硬盘 只 能 恢复 单个 ECC 不 可 纠 的 数据 ， 如 果 出 现 
多 个 ECC 不 可 纠 的 错误 ， 它 也 无 能 为 力 。 


由 于 采用 了 元 余 纠 错 技术 ， 它 需要 额外 的 空间 来 存储 元 余数 据 《〈 校 
， 因 此 必然 会 牺牲 用 户 空间 。 正 应 了 一 句 话 : 天 下 没有 免费 的 
餐 。 


看 起 来 容易 ， 做 起 来 难 ， 其 实 如 果 你 仔细 思考 一 下 固态 硬盘 的 写 特 
性 就 会 发 现 ， 固 态 硬盘 内 部 的 RAID 并 不 像 传统 磁盘 阵列 一 样 几 个 硬盘 
拼 成 一 个 组 那么 简单 ， 需 要 固态 便 盘 架构 的 巨大 改变 ! 


如 图 3-59 所 示 ， 对 传统 磁盘 RAID 5 来 说 ， 数 据 按照 条 带 来 写 。 比 如 
一 个 磁盘 组 有 4 个 磁盘 ， 其 中 一 个 是 校 验 盘 ， 条 带 大 小 为 48KB， 被 拆 成 
三 个 16KB 写 到 三 个 盘 上 ， 最 后 一 盘 是 校 验 数据 一 三 个 16KB 数 据 
的 “ 异 或 ” 值 。 修 改 任何 一 个 16KB 数 据 块 ， 都 需要 重新 生成 校 验 数 据 ， 
并 更 新 校 验 数 据 块 。 
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图 3-59 ”传统 RAID 5 


那么 问题 来 了 : 固态 便 盘 可 以 这 么 做 吗 ? 不 行 ! 固态 硬盘 是 不 能 
写 的 ， 每 次 新 写 入 的 数据 都 会 写 到 新 的 地 方 。 不 过 这 也 没关系 ， 尽 管 说 
数据 写 到 了 新 的 地 方 ， 但 只 要 旧 的 数据 没有 被 擦 挥 ，RAID 条 市 还 是 有 


效 的 


又 有 了 新 的 问题 ， 条 带 里 面 某 个 Die 上 的 Block 被 垃圾 回收 了 怎么 
办 ? 结果 是 灾难 性 的 ，RAID 条 带 失 效 了 。 看 到 这 里 估计 读者 朋友 也 发 
现 了 ， 在 固态 硬盘 里 面 做 RAID 最 重要 的 问题 就 是 垃圾 回收 ， 要 保证 整 
qr UL ELE 因为 同时 被 搬 走 ， 所 以 旧 的 RAID 条 带 也 
就 作废 了 。 


一 般 固 态 人 硬盘 内 部 的 RAID 是 由 不 同 Die 上 的 Block 组 成 的 阵列 ， 它 
们 像 赤 壁 之 战 中 曹操 的 铁 索 战 船 一 样 ， 绑 定 在 一 起 : 同时 被 写 ， 同 时 被 
垃圾 回收 ， 同 时 被 擦 除 。 铁 索 战 船 的 好 处 是 稳定 ， 缺 点 是 不 够 灵活 。 
态 人 硬盘 内 部 的 RAID Block 船 太 大 了 ， 不 太 灵 活 ， 使 得 空间 被 浪费 。 比 如 
进入 休眠 之 前 必须 把 没 写 完 的 条 带 剩余 空间 用 随机 数 填 满 ， 增 加 写 放 
Ko RAID Block 个 头 大 ， 效 率 就 降低 了 ， 有 时 RAID 阵 列 中 某 个 Block 有 
效 数 据 还 很 多 ， 但 是 因为 整个 阵列 有 效 数 据 少 ， 不 得 不 整体 垃圾 回收 。 
世间 没有 完美 的 事 ， 既 然 选 择 了 稳定 的 铁 索 船 ， 那 就 要 承受 有 一 天 忽然 
东南 风 大 作 ， 人 恰好 被 黄 盖 放火 烧 的 风险 。 





3.4.5 ”数据 随机 化 


我 们 在 写 内 存 的 时 候 ， 如 果 只 是 简单 地 把 数据 加 纠 错 码 写 进去 ， 那 

遇 到 很 多 错误 ， 有 时 候 是 写 失 败 ， 有 时 候 是 读 出 来 的 数据 错误 率 太 

。 为 什么 ? 因为 数据 没有 随机 化 。 内 存 是 通过 控制 栅 施 加 电压 来 存储 
数据 的 ， 对 茶 些 写 入 的 数据 样式 很 敏感 ， 不 断 地 输入 全 0 或 者 全 1， 很 容 
易 导致 内 存 内 部 电量 不 均衡 ， 从 而 造成 信号 抗 干扰 性 下 降 ， 叶 致 这 些 数 
气 在 内 存 中 可 靠 性 变 差 。 


从 物理 原理 上 看 ， 闪 存 写 入 数据 需要 做 随机 化 有 两 个 原因 : 


1) 让 0 和 1 的 分 布 充分 隔离 。 图 3-60 是 MLC 内 部 的 各 个 存储 状态 电 
压 分 布 图 ， 实 线 是 随机 化 后 的 分 布 ， 每 个 状态 都 充分 隔离 ， 虚 线 是 没有 
随机 化 的 分 布 ， 有 些 状态 的 分 布 明 显 变 宽 了 ， 随 着 时 间 流 逝 或 者 寿命 纵 
短 ， 这 些 分 布 会 和 周边 发 生 交集 ， 导 致 读数 据 出 错 。 

















图 3-60 没有 随机 化 《虚线 ) 和 随机 化 《〈 实 线 ) 电压 分 布 对 比 


2) 降低 相 邻 单元 之 间 的 耦合 电压 产生 的 影响 。 如 3-61 所 示 ， 对 一 
个 单元 影响 最 大 的 是 其 周围 的 4 个 直接 相 邻 的 单元 ， 这 些 单元 的 状态 直 
接 影响 到 中 间 单 元 的 阅 值 电压 。 
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图 3-61 周围 单元 对 中 心 单元 的 影响 


因此 ， 固 态 便 盘 控制 器 或 者 内 存 内 部 都 有 数据 随机 化 模块 ， 它 对 用 
户 写 入 的 数据 加 入 扰 码 ， 使 最 终 写 入 内 存 的 数据 0 和 1 基本 保持 均衡 ， 减 
小 数据 发 生 比 特 翻 转 的 概率 。 一 般 内 存 厂商 会 推荐 使 用 AES 加 密 算法 实 
现 数据 随机 化 。 


那么 数据 随机 化 放 在 哪个 位 置 呢 ?” 那 自然 是 在 数据 最 终 写 到 闪存 之 
前 ，ECC 加 校 验 数 据 之 后 ， 数 据 流 如 图 3-62 所 示 。 














ECC 加 校 验 ECC 纠 错 


数据 随机 化 数据 去 随机 化 


图 3-62 ”数据 随机 化 数据 流 
在 图 3-62 中 ， 数 据 随 机 化 也 可 以 在 ECC 校 验 之 前 做 ， 两 者 顺序 可 交 


第 4 革 ”SSD 核 心 技术 : FIL 
41 FTL 综述 


FTIL 算 法 的 优 劣 与 个， 直接 决定 了 SSD 在 性 能 (Performance) 、 可 
靠 性 〈Reliability) ~ WH PE (Endurance) 等 方面 的 好 坏 ，EFTL 可 以 说 
是 SSD 固 件 的 核心 组 成 。 


那么 什么 是 FTL? FTL 是 Flash Translation Layer〈 闪 存 转换 层 ) 的 缩 
写 ， 完 成 主机 《或 者 用 户 ，Host) 逻辑 地 址 空间 到 闪存 〈Flash) 物理 地 
址 空间 的 翻译 (Translation) ， 或 者 说 映射 (Mapping) 。SSD 每 把 一 笔 
用 户 逻 辑 数 据 写 入 闪存 地 址 空间 ， 便 记录 下 该 逻辑 地 址 到 物理 地 址 的 映 
射 关系 。 当 主机 想 读 取 该 数据 时 ，SSD 便 会 根据 这 个 映射 ， 从 闪存 读 取 
这 笔 数 据 然 后 返回 给 用 户 。 


完成 逻辑 地 址 空间 到 物理 地 址 空间 的 映射 ， 这 是 FTL 最 原始 且 基 本 
的 功能 。 事 实 上 ，SSD 中 的 FTL 还 有 很 多 事情 可 做 。SSD 使 用 的 存储 介 
质 一 般 是 NAND Flash。 


SSD 的 存储 介质 除了 Flash， 还 有 RAM、3D XPoint 等 新 型 存储 介 
质 。 如 无 特别 说 明 ， 后 文 说 的 SSD 存 储 介 质 都 是 指 NAND Flash， 翻 译 为 
NAND 闪 存 ， 简 称 闪 存 。 


闪存 有 一 些 重要 的 特性 ， 比 如 : 


1) WFH (Block) miš RIASA, Me mm (Update in 
Place) . 


由 于 闪存 块 不 能 覆盖 写 ， 当 写 入 一 笔 新 的 数据 时 ， 不 能 直接 在 老 地 
方 更 改 〈 闪 存 不 允许 在 一 个 闪存 页 (Page) 上 重复 写 入 ， 一 次 擦 除 只 能 
写 入 一 次 ) ， 必 须 写 到 一 个 新 的 位 置 ， 因 此 ，FW CFirmWare, EMF) 
需要 维护 一 张罗 辑 地 址 到 物理 地 址 的 映射 表 。 另 外 ， 往 一 个 新 的 位 置 写 
入 数据 ， 会 导致 老 位 置 上 的 数据 无 效 化 ， 这 些 数 据 就 变 为 了 垃圾 数据 。 
垃圾 数据 会 占用 闪存 空间 ， 当 闪存 可 用 空间 不 够 时 ，FTL 需 要 做 垃圾 回 
收 ， 即 把 若干 个 内 存 块 上 的 有 效 数 据 搬出 ， 写 到 某 个 新 的 闪存 块 ， 然 后 
把 这 些 之 前 的 闪存 块 擦 除 ， 得 到 可 用 的 内 存 块 ， 这 就 是 GC (Garbage 











Collection， 垃 圾 回收 》， 是 FTL 需 要 做 的 一 件 重 要 的 事情 。 
2) 闪存 块 都 是 有 一 定 寿 命 的 。 


每 擦 除 一 次 内存 块 ， 都 会 对 内 存 块 造成 磨损 ， 因 此 闪存 块 都 是 有 寿 
命 的， 可 以 用 PE (Program/EraseCount) 数 衡 量 。 我 们 不 能 集中 往 某 几 
个 内 存 块 上 写 数据 ， 不 然 这 几 块 很 快 就 会 因 PE 耗 尽 而 死亡 ， 这 不 是 我 们 
想 看 到 的 。 我 们 期 望 所 有 闪存 块 都 用 来 均 摊 数据 的 写 入 ， 而 不 是 有 些 块 
飞快 磨损 ， 而 其 他 块 坚 无 作为 。 所 以 FTL 需 要 做 Wear Leveling， 让 数据 
写 入 均 摊 到 每 个 内 存 块 上 ， 即 让 每 个 块 磨 损 都 差不多 ， 从 而 保 证 SSD 有 具 
有 最 大 的 数据 写 入 量 。 


3) 每 个 内 存 块 读 的 次 数 是 有 限 的 ， 读 得 太 多 了 ， 上 面 的 数据 便 会 
出 错 ， 造 成 读 和 干扰 (Read Disturb) 问题 。 


FIL 需 要 处 理 读 干 扰 问 题 ， 当 东 个 内 存 块 该 的 次 数 将 要 达到 一 定 靖 
值 时 ，FTL 需 要 把 这 些 数据 从 该 内 存 块 上 搬 走 ， 从 而 避免 数据 出 错 。 


4) 闪存 的 数据 保持 (Data Retention) 问题 。 


由 于 电 葆 的 流失 ， 存 储 在 内 存 上 的 数据 是 会 丢失 的 。 这 个 时 间 长 则 
十 多 年 ， 短 则 几 年 、 几 个 月 ， 甚 至 更 短 〈 这 是 在 常 遇 下 ， 如 果 是 在 高 温 
环境 下 ， 电 荷 流 失速 度 会 加 快 ， 数 据 保存 的 时 间 就 更 短 了 )。 


如 果 SSD 不 上 电 ，FTL 对 此 也 是 到 无 办 法 ， 因 为 没有 运行 机 会 。 但 
一 旦 上 电 ，FTL 就 需要 对 此 做 点 什么 ， 比 如 扫描 闪存 ， 发 现 是 否 存在 数 
据 保 持 问 题 ， 如 果 存 在 ， 则 需要 搬 动 数据 ， 防 患 于 未 然 。 好 的 FTL， 就 
需要 有 处 理 数据 保持 问题 的 能 


" D 闪存 天 生 就 有 坏 块 。 另 外 ， 随 着 SSD 的 使 用 ， 也 会 产生 新 的 坏 





坏 块 的 症状 是 擦 写 失 败 或 者 读 失 败 〈(ECC 不 能 纠正 数据 错误 ) 。 坏 
块 管理 也 是 FTL 的 一 大 任务 。 


6) 对 MLC 或 TLC 来 说 ， 存 在 Lower Page corruption 的 问题 。 


即 在 对 Upper Page/ExtraPage (和 Lower Page 共 享 存储 单元 的 闪存 
页 ) 写 入 时 ， 如 果 发 生 异 弟 掉 电 ， 也 会 把 之 前 Lower Page 上 成 功 写 入 的 


数据 破坏 掉 。 好 的 FTL， 应 该 有 机 制 尽 可 能 避免 这 个 问题 


7) MLC 或 TLC 的 读 写 速度 都 不 如 SLC， 但 它们 都 可 以 配 成 SLC 模 
式 来 使 用 。 


好 的 FTL， 会 利用 该 特性 去 改善 SSD 的 性 能 和 可 靠 性 。 


上 上面 说 的 这 些 特 性 是 内 存 的 共性 ， 不 同 的 内 存 间 还 会 有 各 目的 问 
题 。FTL 除 了 完成 基本 的 地 址 映射 ， 还 需要 处 理 垃圾 回收 CGC . Ai 
平衡 (Wear Leveling) 、 坏 块 管理 、 读 干扰 (ReadDisturb) 处 理 、 数 据 
保持 (Data Retention. 处 理 等 事情 。 随 着 闪存 质量 变 差 ，FTL 除 了 完成 
上 述 常 规 处 理 ， 还 需要 针对 具体 闪存 特性 ， 去 做 一 些 特殊 处 理 以 获得 好 
的 性 能 和 高 的 可 靠 性 。 


FTL 分 为 Host Based 〈 基 于 主机 ) 和 Device Based (基于 设备 ) 。 
Host Based 表 示 的 是 ，ETL 是 在 Host (EHL 端 实 现 的 ， 用 的 是 你 自己 
计算 机 的 CPU 和 内 存 资源 ， 如 图 4-1 所 示 。 








EN 设备 端 
FE (前 端 ) K= FTL «—» BE (n) 


图 4-1 FTL 在 主机 端 


除了 大 名 见 易 的 Fusion-IO 使 用 Host Based FTL， 业 界 还 有 方 一 信息 
科技 、 宇 存 等 公司 在 做 Host Based FTL. 


相反 ，Device Based 表 示 的 是 ，FTL 是 在 Device (设备 ) 端 实现 的 ， 
用 的 是 SSD 上 的 控制 器 和 RAM 资 源 ， 如 图 4-2 所 示 。 

主机 端 ， 设备 端 

SATA ， 


(| rE (前 端 ) BE (后 端 ) 


NVME | 





图 4-2 FTL 在 设备 端 


目前 主流 SSD 都 是 Device Based FTL， 如 无 特别 说 明 ， 后 文 有 关 FTL 
的 论述 都 是 基于 Device Based 的 。4.10 节 有 关于 Host Based FTL 的 介绍 ， 
读者 可 提前 了 解 。 


下 面 我 们 来 看 看 FTL 的 各 个 关键 技术 。FTL 的 初衷 是 完成 逻辑 地 址 
m IM 到 物理 地 址 〈 或 物理 空间 ) 的 映射 ， 因 此 我 们 首先 看 
FTEL 的 映射 。 


4.0 映射 管理 


4.2.1 ”映射 种 类 


根据 映射 粒度 的 不 同 ，FTL 映 射 有 基于 块 的 映射 ， 有 基于 页 的 映 
射 ， 还 有 混合 映射 (Hybrid Mapping) . 


块 映 射 中 ， 以 内 存 的 块 为 映射 粒度 ， 一 个 用 户 远 辑 块 可 以 映射 到 任 
意 一 个 内 存 物理 块 ， 但 是 映射 前 后 ， 每 个 页 在 块 中 的 侦 移 保持 不 变 。 由 
于 映射 表 只 需 存 储 块 的 映射 ， 因 此 存储 映射 表 所 需 空 间 小 ， 但 其 性 能 
产 ， 尤 其 是 小 尺寸 数据 的 写 入 性 能 ， 用 户 即使 只 写 入 一 个 人 逻辑 页 ， 也 需 
要 把 整个 物理 块 数据 先 读 出 来 ， 然 后 改变 那个 馆 辑 页 的 数据 ， 最 后 再 整 
个 块 写 入 。 块 映射 有 好 的 连续 大 太吉 的 读 写 性 能 ， 但 小 矿 才 数据 的 写 性 
Boe TET AASHI o 

图 4-3 中 ， 用 户 空间 被 划分 成 一 个 个 逻辑 区 域 (Region) ， 每 个 区 
域 和 内 存 块 大 小 相同 。 


U 盘 一 般 都 是 采用 块 映 射 〈U 盘 使 用 的 存储 介质 也 是 闪存， 因此 也 
AHFILBJO ， 适 合 大 数据 的 传输 ， 不 适合 小 尺寸 数据 的 写 入 。 所 以 请 
不 要 抱 候 U 盘 随机 性 能 ， 装 系统 还 是 选择 SSD 吧 。 








用 户 空间 内 存 空 间 
Region 0 Block 0 


Region 1 Block 1 
Region 2 Block 2 


Region 3 Block 3 


Region 4 Block 4 
Region 5 Block 5 


Region 6 Block 6 





图 4-3” 块 映射 


页 映 冉 中 ， 以 内 存 的 页 为 映射 粒度 ， 一 个 逻辑 页 可 以 映 财 到 任意 一 
个 物理 页 中 ， 因 此 每 一 个 页 都 有 一 个 对 应 的 映射 和 关系 ， 如 图 4-4 所 示 。 
由 于 闪存 页 远 比 内 存 块 多 ， 因 此 需要 更 多 的 空间 来 存储 映射 表 。 但 它 的 
poc 尤其 体现 在 随机 写 上 和 面 。 为 退 求 性 能 ，SSD 一 般 都 采用 页 映 














图 4-4 中 ， 用 户 空间 被 划分 成 一 个 个 的 逻辑 区 域 ， 每 个 区 域 和 闪存 
页 大 小 相同 。 


实际 中 逻辑 区 域 大 小 可 能 小 于 闪存 页 大 小 ， 一 个 闪存 页 可 容纳 奉 干 
个 逻辑 区 域 数据 。 


混合 映 财 是 块 映射 和 页 映射 的 结合 ， 如 图 4-5 所 示 。 一 个 逻辑 块 映 
冉 到 任意 一 个 物理 块 ， 但 在 块 中 ， 每 个 页 的 偏 移 并 不 是 固定 不 动 的 ， 块 
内 采用 页 映 冉 的 方式 ， 一 个 逻辑 块 中 的 逻辑 页 可 以 映射 到 对 应 物理 块 中 
BET 因此 ， 它 的 映射 表 所 需 空间 以 及 性 能 都 是 介 于 块 映 射 和 页 映 
之 间 的 。 
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图 4-4 页 映射 
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图 4-5 ”混合 映射 
图 4-5 中 ， 用 户 空间 划分 成 一 个 一 个 逻辑 区 域 ， 逻 辑 区 域 和 闪存 块 
大 小 相同 。 每 个 逻辑 块 对 应 着 一 个 闪存 块 ， 但 逻辑 块 内 部 叉 分 成 一 个 个 
逻辑 页 ， 与 对 应 闪存 块 中 的 闪存 页 随意 对 应 。 
下 面 对 块 映射 、 页 映射 和 混合 映射 进行 了 对 比 ， 如 表 4-1 所 示 。 


表 4-1 不 同 映射 之 间 的 比较 








ETT ICT) 





混合 映射 
顺序 读 性 能 好 
随机 写 性 能 差 
随机 读 性 能 好 
映射 表 大 小 - 般 





如 无 特别 说 明 ， 我 们 接 下 来 讲 的 FTL 都 是 基于 页 映射 的 ， 因 为 现在 
SSD 基 本 都 是 采用 这 种 映射 方式 。 


4.2.2 BARS] EZ i RE 


用 户 通 过 LBA (Logical Block Address, kbh) 访问 SSD， 
个 LBA 代 表 着 一 个 逻辑 块 〈 大 小 一 般 为 512B/4KB/8KB..………) ， 我 们 把 
用 户 访问 SSD 的 基本 单元 称 为 逻辑 页 (Logical Page) 。 而 在 SSD 内 部 ， 
SSD 主 控 是 以 内 存 页 为 基本 单元 读 写 内 存 的 ， 我 们 称 闪 存 页 为 物理 页 
(Physical Page) 。 用 户 每 写 入 一 个 数据 页 ，SSD 主 控 就 会 找 一 个 物理 
页 把 用 户 数据 写 入 ，SSD 内 部 同时 记录 了 这 样 一 条 映射 Map) 。 有 了 
这 样 一 个 映射 关系 后 ， 下 次 用 户 需 要 读 某 个 多 辑 页 时 ，SSD 就 知道 从 闪 
存 的 哪个 位 置 把 数据 读 取 上 来 ， 如 图 4-6 所 示 。 





迎 辑 块 空间 物理 存储 空间 


D 





13 fe 4L 


TI 


逻辑 地 址 到 物理 地 址 的 映射 
图 4-6 ”逻辑 空间 到 物理 空间 的 映射 
SSD 内 部 维护 了 一 张 逻 辑 页 到 物理 页 地 址 转换 的 映射 表 (Map 
Table) 。 用 户 每 写 入 一 个 逻辑 页 ， 就 会 产生 一 个 新 的 映射 关系 ， 这 个 


映射 关系 会 加 入 《第 一 次 写 ) RAEN EnS) WWR. HEREA 
逻辑 页 时 ，SSD 首 移 查 找 映射 表 中 该 逻辑 页 对 应 的 物理 页 ， 然 后 再 访问 





闪存 读 取 相应 的 用 户 数 据 。 


由 于 闪存 页 和 多 辑 页 大 小 不 同 ， 一 般 前 者 大 于 后 者 ， 所 以 实际 上 不 
是 一 个 逻辑 页 对 应 一 个 物理 页 ， 而 是 大 干 个 好 辑 页 写 在 一 个 物理 页 
， 逻 辑 页 其 实 是 和 子 物理 页 一 一 对 应 的 。 


一 张 映射 表 有 多 大 呢 ? 


这 里 假设 我 们 有 一 个 256GB 的 SSD， 以 4KB 大 小 的 逻辑 页 为 例 ， 那 
么 用 户 空间 一 共有 64M (256GB/4KB) 个 罗 辑 页 ， 也 就 意味 着 SSD 需 要 
有 能 容纳 64M 条 映射 关系 的 映射 表 。 映 射 表 中 的 每 个 单元 (entry) 存储 
的 就 是 物理 地 址 (Physical Page Address) ， 假 设 其 为 4 字 节 〈32bits) ， 
那么 整个 映射 表 的 大 小 为 64Mx4B=256MB。 一 般 来 说 ， 映 射 表 大 小 为 
SSD 容 量 大 小 的 千 分 之 一 。 


;准确 来 说 ， 映 射 表 大 小 是 SSD 容 量 大 小 的 1/1024。 前 提 条 件 是 : Wk 
射 页 大 小 为 4KB， 物 理 地 址 用 4Byte 表 示 。 这 里 假设 了 SSD 内 部 映射 粒度 
等 于 逻辑 页 大 小 ， 当 然 它 们 可 以 不 一 样 。 

对 于 绝 大 多 数 SSD， 我 们 可 以 看 到 上 面 都 有 板 载 DRAM， 其 主要 作 
用 就 是 存储 这 张 映 射 表 ， 如 图 4-7 所 示 。 在 SSD 工 作 时 ， 全 部 或 绝 大 部 分 
的 映射 表 都 可 以 放 在 DRAM 上 ， 映 射 关系 可 以 快速 访问 。 
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图 4-7 带 DRAM 的 SSD 架 构 


但 有 些 入 门 级 SSD 或 者 移动 存储 设备 〈 比 如 eMMC、UEFS) ， 出 于 
成 本 和 功 耗 考虑 ， 它 们 采用 DRAM-Less 设 计 ， 即 不 带 DRAM， 比 如 经 典 
的 Sandforce 主 控 ， 它 并 不 文 持 板 载 DRAM， 那 么 它 的 映射 表 存 在 哪里 





UE? 它 采 用 二 级 映射 ( 见 图 4-8〉。 一 级 映射 表 常 驻 SRAM， 二 级 映射 表 
小 部 分 缓存 在 SRAM， 大 部 分 都 存放 在 闪存 上 。 


二 级 表 就 是 L2P (Logical address To Physical address, 12 43h FI] 
物理 地 址 转换 ) 表 ， 它 被 分 成 一 块 一 块 〈Region) 的 ， 大 部 分 存储 在 内 
存 中 ， 小 部 分 缓存 在 RAM 中 。 一 级 表 则 存储 这 些 块 在 内 存 中 的 物理 地 
址 ， 由 于 它 不 是 很 大 ， 一 般 都 可 以 完全 放 在 RAM 中 。 


SSD 工 作 时 ， 对 带 DRAM 的 SSD 来 说 ， 只 需要 查找 DRAM 当 中 的 映 
射 表 ， 获 取 到 物理 地 址 后 访问 闪存 便 会 得 到 用 户 数据 ， 这 期 间 只 需要 访 
问 一 次 闪存 。 而 对 不 带 DRAM 的 SSD 来 说 ， 它 首先 会 查看 该 逻辑 页 对 应 
的 映射 关系 是 否 在 SRAM 内 : 如 果 在 ， 直 接 根据 映射 关系 读 取 闪存 ;如 
果 不 在 ， 那 么 它 首 先 需要 把 映射 关系 从 闪存 中 读 取 出 来 ， 然 后 再 根据 这 
个 映射 关系 读 取 用 户 数 据 ， 这 束 意 味 着 相 比 于 有 DRAM 的 SSD， 它 需要 
0 00000 底层 有 效 带 宽 减 小 ， 如 图 4-9 

和 外。 
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图 4-8 两 级 表 映 射 
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图 4-9 不 带 DRAM 的 SSD 架 构 








对 顺序 读 来 说 ， 映 射 关 系 连续 ， 因 此 一 次 映射 块 的 读 ， 可 以 满足 很 
多 用 户 数据 的 读 ， 也 意味 着 DRAM-less 的 SSD 可 以 有 好 的 顺序 读 性 能 。 
但 对 随机 读 来 说 ， 映 射 关 系 分 散 ， 一 次 映射 关系 的 加 载 基 本 只 能 满足 一 
笔 逻 辑 页 的 读 ， 因 此 对 随机 读 来 说 ， 需 要 访问 两 次 闪存 才能 完成 读 操 
作 ， 随 机 读 性 能 就 不 是 那么 理想 了 。 


4.2.3 HMB 


映射 表 除 了 可 以 放 在 板 载 DRAM、SRAM 和 闪存 中 ， 它 还 可 以 放 到 
主机 的 内 存 中 。NVME1.2〈 及 后 续 版 本 ) 有 个 重要 的 功能 就 是 
HMB (Host Memory Buffer， 主 机 高 速 缓冲 存储 器 ) : 主机 在 内 存 中 专 
门 划 出 一 部 分 空间 给 SSD 用 ，SSD 可 以 把 它 当 成 自己 的 DRAM 使 用 。 
此 ， 映 射 表 完 全 可 以 放 到 主机 端的 内 存 中 去 ， 如 图 4-10 所 示 。 


在 性 能 上 ， 它 应 该 介 于 带 DRAM 和 不 带 DRAM (映射 表 绝 大 多 数 存 
放 在 闪存 ) 之 间 ， 因 为 SSD 访 问 主机 端 DRAM 的 速度 肯定 比 访问 SSD 端 
DRAM 的 速度 要 慢 ， 但 还 是 比 访问 闪存 的 速度 〈 约 40hs) 要 快 。 











图 4-10 ”基于 HMB 的 SSD 架 构 


Marvell 在 CES (Consumer Electronics Show) 2016 上 发 布 了 新 款 
SSD 主 控 “88NV1140”， 是 第 一 款 实 现 HMB 功 能 的 主 控 。 


江波 龙 2017 年 发 布 了 目前 世界 上 最 小 尺寸 的 
SSD (11.5mmx13mm) : P900 系 列 ， 该 产品 支持 HMB 功 能 。 





图 4-11 Marvell 主 控 支 持 HMB 


HMB 功 能 允许 主 控 像 使 用 SSD 上 的 DRAM 一 样 使 用 主机 DRAM。 具 
体 说 来 ， 就 是 主机 在 主 存 中 专门 划 出 一 块 内 存 给 SSD 使 用 ， 该 内 存在 物 
理 上 可 以 不 连续 ，SSD 不 仅 可 以 用 它 来 存放 映射 表 ， 还 可 以 用 它 来 缓存 
用 户 数 据 ， 有 具体 怎么 用 ， 取 决 于 SSD 设 计 者 。 


Host Memory Buffer (HMB) nvm.» 











* Allow the host driver to allocate system 
memory for the SSD's exclusive use 






Client 
System 


* Enables DRAM savings 
— ER. store translation tables in host DRAM 


Host Memory Allocated for SSD's 

* Spec Exclusive Use 

- Host can enable/disable feature, 
preserve/reassign buffer after RTD3 

— Device can specify minimum and preferred 
buffer size 


图 4-12 HBM 介 绍 


如 前 所 述 ，SSD 有 两 种 设计 ， 一 种 是 带 DRAM 的 ，DRAM 用 于 绥 存 
数据 和 存放 映射 表 ， 目 前 主流 SSD 都 是 带 DRAM 的 ;还 有 一 种 就 是 不 带 
DRAM (DRAM-Less) 的 ， 绥 存 数 据 用 主 控 上 的 SRAM， 有 映射 表 采 用 两 
级 映射 一 一 一 级 映射 和 少量 的 二 级 映射 放 SRAM， 二 级 映射 数据 大 多 数 
存放 在 闪存 上 ， 这 种 DRAM-Less 设 计 多 为 入 门 级 SSD 使 用 。 


带 DRAM 的 SSD 设 计 ， 其 优势 是 性 能 好 ， 了 映射 表 完 全 可 以 放 在 
DRAM 上， 查找 和 更 新 迅速 ， 劣势 就 是 由 于 增加 了 一 个 DRAM， 提 高 了 
SSD 的 成 本 ， 也 加 大 了 SSD 的 功 耗 。DRAM-Less 的 SSD 设 计 则 正好 相 
反 ， 优 势 是 成 本 和 功 耗 相对 低 ， 缺 点 是 性 能 差 。 由 于 映射 表 绝 大 多 数 存 
储 在 闪存 中 ， 对 随机 读 来 说 ， 每 次 读 用 户 数 据 ， 需 要 访问 两 次 闪存 ， 第 
一 次 是 获取 映射 表 ， 然 后 才 是 真正 读 取 用 户 数据 。 


NVMe1.2HMB 的 出 现 ， 以 及 Marvell 新 主 控 对 HMB 的 支持 ， 为 SSD 
的 设计 提供 了 新 的 思路 。SSD 可 以 自己 不 带 DRAM， 完 全 用 主机 的 
DRAM， 用 以 缓存 数据 和 映射 表 。 拿 随机 读 来 说 ，DRAM-Less 访 问 映射 
表 的 时 间 是 读 闪 存 的 时 间 。 带 DRAM 的 SSD， 其 访问 映射 表 的 时 间 是 读 
DRAM 的 时 间 ; 而 对 HMB 来 说 ， 其 访问 映射 表 的 时 间 是 访问 主机 
DRAM 的 时 间 ， 接 近 DRAM SSD， 远 远 短 于 DRAM-Less SSD 或 者 
eMMC, UFS (也 是 DRAM-Less) 。 下 面 是 Marvell 在 2015 年 闪存 峰会 上 
给 的 一 张 图 〈 见 图 4-13， 非 原 图 ， 有 改动 ) 。 








读 延 迟 (latency) (队列 深度 为 1，4KB 数据 IO) 
SATA (DRAM based) (3 | 
PCle Gen3 x 1 NVMe HMB/(D AMless) (JD) | 


PCle Gen3 x 1 NVN 






AMIess) 全 一 


eMMC 5.1 M 
0 50 100 150 200 250 300 
延 时 (hs)， 数 字 越 小 越 好 
BIJ RAR 污 闪 存 m» dd pss ESNIE 
链 路 层 数 据 传输 主机 平台 + 适 配 需 主机 软件 


图 4-13 不同 SSD 架 构 下 查询 映射 表 的 时 延 对 比 


基于 HMB 的 FW 实现 比较 复杂 ， 因 为 要 考虑 到 即使 主机 不 支持 
HMB，SSD 还 要 能 正常 工作 。 








4.3.4 RITR 


映射 表 在 SSD 挥 电 前 ， 是 需要 把 它 写 入 到 闪存 中 去 的 。 下 次 上 电 初 
始 化 时 ， 需 要 把 它 从 闪存 中 部 分 或 全 部 加 载 到 SSD 的 缓存 (DRAM 或 者 
SRAM) 中 。 随 痢 SSD 的 写 入 ， 缓 存 中 的 映射 表 不 断 增加 新 的 映射 关 
系 ， 为 防止 异 第 挥 电 导致 这 些 新 的 映射 关系 丢失 ，SSD 的 固件 不 仅仅 只 
在 正常 挥 电 前 把 这 些 映射 关系 刷新 到 闪存 中 去 ， 而 是 在 SSD 运 行 过 程 
中 ， 按 照 一 定 策略 把 映射 表 写 进 内 存 。 这 样 ， 即 使 发 生 异 党 掉 电 ， 丢 失 
的 也 只 是 一 小 部 分 映射 关系 ， 上 电 时 可 以 较 快 地 重建 这 些 映 射 关系 。 


那么 ， 什 么 时 候 会 触 友 映射 表 的 写 入 呢 ? 一 般 有 以 下 几 种 情况 : 

-新 产生 的 映射 关系 累积 到 一 定 的 阐 值 

用户 写 入 的 数据 量 达 到 一 定 的 阐 值 

-内存 写 完 办 存 块 的 数量 达到 一 定 的 阐 值 

其 他 

写 入 集 略 一 般 有 : 

全 部 更 新 

LESE 

全 部 更 新 表示 的 是 缓存 中 映射 表 CEORBDRUSTHRBE]) 全 部 写 入 到 
闪存， 增 量 更 新 的 意思 是 只 把 新 产生 的 《不 干净 的 ) 映射 关系 刷 入 到 内 
存 中 去 。 显 然 ， 相 比 后 者 ， 前 者 需要 写 入 更 多 的 数据 量 ， 一 方面 影响 用 
户 写 入 性 能 和 时 延 〈latency) ， 必 一 方面 增加 写 放 大 ， 但 其 好 处 是 固件 
实现 简单 ， 不 需要 去 知道 哪些 映射 关系 是 干净 的 ， 哪 些 是 不 干净 的 。 回 
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43 垃圾 回收 
4.3.1 垃圾 回收 原理 


垃圾 回收 是 FTL 的 一 个 重要 任务 。 我 们 虚构 一 个 小 小 的 SSD 空 间 来 
讲 垃圾 回收 原理 ， 以 及 与 之 紧密 联系 的 WA (Write Amplification， 写 放 
K) 和 OP (Over Provisioning， 预 留 空间 ) 等 概念 。 


我 们 假设 该 SSD 底 层 有 4 个 通道 (CHO~CH3) ， 连 接着 4 个 Die (每 
个 通道 上 的 Die 可 并 行 操 作 ) ， 假 设 每 个 Die 只 1 有 6 个 闪存 块 ( Block0— 
Block5) ， 所 以 一 共 24 个 闪存 块 。 每 个 闪存 块 内 有 9 个 小 方块 ， 每 个 小 
Jr Jc MUERE PE 24 个 闪存 块 中 ， 我 们 假设 其 中 的 20 个 闪 
仔 块 大 小 为 SSD 容 就 十 主 机 剖腹 到 的 SSD 大 小 ; 另外 4 个 闪存 块 是 超 
出 SSD 容 量 的 预 留 空间 ， 我 们 称 之 为 OP， 如 图 4-14 所 示 。 


好 ， 一 个 SSD 择 在 我 们 面前 ， 下 面 开始 写 入 了 。 


我 们 顺序 写 入 4 个 逻辑 页 ，7 分 别 与 到 个 同 通道 的 pie 上， 这 样 写 的 目 
的 是 增加 底层 的 并 行 性 ， 提 升 写 入 性 能 ， 如 图 4-15 所 示 。 


我 们 继续 顺序 写 入 ， 固 件 则 把 数据 交错 写 入 到 各 个 Die 上 ， 直 到 写 
满 整个 SSD 空 间 〈( 主 机 端 看 到 的 ) 如 图 4-16 所 示 。 
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虚构 的 小 小 SSD 空 间 


图 4-14 


Block 0 


Block 1 


Block 2 


Block 3 


Block 4 


Block 5 
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图 4-15 ”主机 写 入 4 个 逻辑 页 数据 后 
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图 4-16 ”用 户 空 间 写 满 后 的 SSD 
整个 盘 写 满 了 (从 用 户 角 度 来 看 也 就 是 整个 用 户 空 间 写 满 了 ， 但 在 
内 存 空间 ， 由 于 OP 的 存在 ， 并 没有 写 满 ) 。 那 如 果 想 写 入 更 多 ， 应 该 
怎么 办 ? 别 无 他 法 ， 只 能 把 看 过 的 内 容 割 爱 删 除了 ， 腾 出 空间 放 新 的 内 
AR 
F4 1255 X. 


假设 还 是 从 逻辑 页 1 开始 写 入 。 这 时 ，SSD 会 把 新 写 入 的 逻辑 页 写 


A RIANA ROPE 


只 会 看 到 闪存 空 


现 了 深 色 方块 ， 怎 么 


间 。 对 SSD 来 说 ， 不 存在 什么 用 户 衬 


间 和 OP 空间 ， 它 





x 间 。 主 机 端 来 数据 ，SSD 就 入 内存 空 





x 间 写 。 图 4-17 中 出 


HIE? 因为 逻辑 页 1 一 4 的 数据 已 更 新 ， 写 到 新 的 地 


方 ， 那 么 之 前 那个 位 置 上 的 逻辑 页 1 一 4 数据 就 失效 了 ， 过 期 了 ， 变 垃圾 
了 。 用 户 更 新 数据 ， 由 于 闪存 不 能 在 原 位 置 履 新 写 ， 轿 件 只 能 男 找 内 存 
空间 写 入 新 的 数据 ， 因 此 导致 原 内 存 空间 数据 过 期 ， 形 成 垃圾 。 


继续 顺序 写 入 ， 深 色 方块 越 来 越 多 (垃圾 数据 越 来 越 多 ) 。 所 有 闪 
存 空 间 都 写 满 后 ， 小 SSD 就 是 下 面 这 个 样子 〈 见 图 4-18) . 


等 所 有 Die 上 的 Block 5 写 满 后 ， 所 有 Die 上 的 Block 0 也 全 部 变色 了 
(这 些 数据 都 是 垃圾 ) 。 


现在 不 仪 整个 用 户 空间 都 写 满 ， 整 个 内 存 空间 也 都 满 了 。 如 果 用 户 
想 继续 写 入 后 续 的 逻辑 页 (36 之 后 的 ) ， 该 怎么 办 呢 ? 


这 时 ， 就 需要 也 圾 回收 了 。 我 们 暂时 从 之 前 的 SSD 系 统 中 走出 来 ， 
看 看 什么 是 垃圾 回收 。 
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图 4-17 删除 4 个 逻辑 页 后 再 次 写 入 4 个 逻辑 页 
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图 4-18 ”闪存 空间 写 满 
需要 说 明 的 是 ， 实 际 中 是 不 会 等 所有 闪存 空间 都 写 满 后 才 开 始 做 
GC 的 ， 而 是 在 满 之 前 就 触发 GC， 这 里 只 是 为 描述 GC 而 做 的 假设 。 


垃圾 回收 ， 就 是 把 某 个 闪存 块 上 的 有 效 数 据 《〈 图 4-19 中 浅 色 方 块 ) 
读 出 来 ， 重 写 ， 然 后 把 该 内 存 块 氛 除 ， 束 得 到 新 的 可 用 内 存 块 了 。 


L 1| s| af 2| e| 10 s| v| af 4| | 1 
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图 4-19 垃圾 回收 示例 


Kj4-19rP, Block x 上 面 有 效 数 据 为 A、B、C，Block y 上 面 有 效 数 据 
为 D、E、F、G， 其 余 方块 为 无 效 数据 。 垃 圾 回收 机 制 就 是 先 找 一 个 可 
用 Block z， 然 后 把 Block x 和 Block y 的 有 效 数据 搬移 到 Block z 上 面 去 ， 
这 样 Block x 和 Block y 上 面 就 没有 任何 有 效 数 据 ， 可 以 擦 除 变 成 两 个 可 
用 的 闪存 块 ， 如 图 4-20 所 示 。 





Block x Block x 





图 4-20” 擦 除 垃圾 数据 块 变 成 可 用 数据 块 
再 回 到 我 们 的 小 小 SSD 系 统 中 来 。 


上 例 中 ， 由 于 我 们 是 顺序 写 入 ， 垃 圾 集中 在 Block 0 上 ， 上 面 没有 任 
何 有 效 数 据 ， 我 们 把 它们 擦 除 就 可 以 腾 出 新 的 写 入 空间 ， 用 户 就 可 以 把 
新 的 数据 写 入 到 垃圾 回收 完成 的 Block 0 上 了 。 从 这 个 例子 中 我 们 可 以 看 
出 : 顺序 写 ， 即 使 是 内 存 空间 写 满 后 的 写 (Ful Drive 写 ) ， 性 能 也 是 比 
较 好 的 ， 因 为 垃圾 回收 可 以 很 快 完成 (也 许 只 需要 一 个 擦 除 动作 ) 。 


但 现实 是 残酷 的 : 用户 写 入 数据 ， 更 多 的 可 能 是 随机 写 入 数据 。 下 
面 是 一 个 内 存 空间 经 历 随机 写 满 后 的 样子 〈 见 图 4-21) 。 
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图 4-21 ”随机 写 满 内 存 空 间 后 的 SSD 


用 户 如 果 继 续 往 SSD 上 写 入 数据 ， 那 么 SSD 怎 么 处 理 ? 当然 需要 做 
垃圾 回收 。 不 过 ，SSD 内 部 状况 比 之 前 看 到 的 复杂 多 了 ， 垃 圾 数据 分 散 
在 每 个 内 存 块 上 ， 而 不 是 集中 在 某 几 个 内 存 块 上 。 这 个 时 候 ， 如 何 挑选 
需要 回收 的 内 存 块 呢 ? 答案 显而易见 ， 挑 垃圾 比较 多 的 闪存 块 来 回收 ， 
因为 有 效 数据 少 ， 要 搬移 的 数据 少 ， 这 样 腾 出 空 内 存 块 的 速度 快 。 


对 上 面 每 个 内 存 块 的 垃圾 数 《〈 深 色 方 块 ) 做 个 统计 ， 如 表 4-2 所 
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外。 
表 4-2 每 个 内 存 块 上 垃圾 数据 统计 


BLOCK 0 
BLOCK 1 
BLOCK 2 
BLOCK 3 
BLOCK 4 
BLOCK 5 


由 于 古 同 时 往 4 个 通道 上 写 ， 我 们 需要 每 个 通道 都 有 一 个 空 几 的 内 
存 块 ， 因 此 ， 我 们 做 垃圾 回收 时 ， 不 是 回收 某 个 闪存 块 ， 而 是 所 有 通道 
上 都 要 挑 一 个 。 一 般 选 择 每 个 Die 上 块 写 一 样 的 所 有 闪存 块 做 垃圾 回 
收 。 上 例 中 ，Block 0 上 的 垃圾 数量 最 多 〈24 个 深 色 方块 ， 最 多 ) ， 因 此 
我 们 挑 Block 0 作为 垃圾 回收 的 内 存 块 (这 里 忽略 PE Count 等 因素 ， 只 看 
BOBO 。 回 收 完毕 ， 我 们 把 之 前 Block 0 上 面 的 有 效 数 据 〈 浅 色 方 块 ) 
重新 写 回 到 这 些 内 存 块 《这 里 ， 我 们 假设 回收 的 有 效 数 据 和 用 户 数据 写 
在 同一 个 内 存 块 ， 实 际 上 ， 它 们 可 能 是 分 开 写 的 ) ， 如 图 4-22 所 示 。 
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图 4-22 ”做 完 垃圾 回收 后 的 Block 0 可 以 继续 写 入 数据 
这 时 ， 有 了 空闲 的 空间 《白色 方块 ) ， 用 户 就 可 以 继续 写 入 数据 
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Ts 


江湖 传言 ， SSD 越 写 越 慢 。 没 错 ， 其 实 这 是 有 科学 依据 的 : 可 用 闪 
存 空 间 富 裕 时 ，SSD 是 无 须 做 GC 的 ， 因 为 总 有 空闲 的 空间 可 写 。SSD 使 
用 早期 ， 由 于 没有 触发 GC， 无 须 额 外 的 读 写 ， 所 以 速度 很 快 。 慢 慢 地 
会 发 现 SSD 变 慢 了 ， 主 要 是 因为 SSD 需 要 做 GC。 


43.2. SK 


由 于 GC 的 存在 ， 就 有 一 个 问题 ， 用 户 要 写 入 一 定 的 数据 ，SSD 为 
了 膳 出 空间 写 这 些 数据 ， 需 要 额外 的 做 一 些 数据 的 搬移 ， 也 就 是 额外 的 
写 ， 最 后 往往 导致 SSD 往 闪存 中 写 入 的 数据 量 比 实际 用 户 写 入 SSD 的 数 
据 量 多 。 因 此 ，SSD 中 有 个 重要 参数 ， 就 是 写 放 大 (WA, Write 
Amplification) : 


写 入 闪存 的 数据 量 
用 户 写 的 数据 量 


对 空 盘 来 说 (未 触发 GC) ， 写 放大 一 般 为 1， 即 用 户 写 入 多 少数 
据 ，SSD 写 入 闪存 也 是 多 少数 据 量 (这 里 忽略 SSD 内 部 数据 的 写 ， 如 了 映 
射 表 的 写 入 ) 。 在 SandForce 控 制 器 出 来 之 前 ， 写 放大 最 小 值 为 1。 但 是 
由 于 SandForce 控 制 器 内 部 具有 实时 数据 压缩 模块 ， 它 能 对 用 户 写 入 的 
数据 进行 实时 压缩 ， 然 后 再 把 它们 写 入 到 闪存 ， 因 此 WA 可 以 做 到 小 于 
1。 举 个 例子 ， 用 户 写 入 8KB 数 据 ， 经 压缩 后 ， 数 据 变 为 4KB， 如 果 这 
个 时 候 还 没有 垃圾 回收 ， 那 么 写 放 大 就 只 有 0.5。 


来 看 看 GC 触发 后 ，WA 是 怎么 算 的 。 以 前 面 的 GC 为 例 ， 我 们 挑选 
每 个 Die 上 的 Block 0 做 垃圾 回收 ， 如 图 4-23 所 示 。 
CHO CHI CH2 CH3 


[ 6. 45|173) 165| 96 | 141] 


图 4-23 Block 0 数据 示意 


一 共 36 个 方块 ， 其 中 有 12 个 有 效 数 据 块 ， 我 们 做 完 垃 圾 回收 后 ， 需 
把 这 12 个 有 效 数 据 块 写 回 ， 如 图 4-24 所 示 。 


写 放 大 = 










Block 0 








GENES Es EEG IE 
图 4-24 垃圾 回收 后 ， 将 有 效 数 据 写 回 Block 0 


后 面 还 可 以 写 入 24 个 方块 的 用 户 数据 。 因 此 ， 为 了 写 这 24 个 方块 的 
用 户 数 据 ，SSD 实 际 写 了 12 个 方块 的 原 有 效 数据 ， 再 加 上 该 24 个 方块 的 
用 户 数据 ， 总 共 写 入 36 个 方块 数据 ， 按 照 写 放大 定义 : 
WA=36/24=1.5。 


写 放 大 越 大 ， 意 味 着 额外 写 入 闪存 的 数据 越 多 ， 一 方面 磨损 闪存 ， 
减少 SSD 寿 命 ， 另 一 方面 ， 写 入 这 些 额外 数据 会 占用 底层 闪存 带宽 ， 影 
啊 SSD 性 能 。 因 此 ，SSD 设 计 的 一 个 目标 是 让 WA 尽量 小 。 减 小 写 放 
大 ， 可 以 使 用 前 面 提 到 的 压缩 办 法 〈 主 控 决 定 ) ， 顺 序 写 也 可 以 减 小 写 
放大 〔 垃 圾 集中 ， 但 顺序 写 可 遇 不 可 求 ， 取 决 于 用 户 Workload) ， 还 有 
就 是 增 大 OP (这 个 可 控 ) 。 


增 大 OP 为 何 能 减 小 写 放 大 ? 先 定义 OP 比例 = (内存 空间 -用 户 空 
Ds 


还 是 以 前 面 的 SSD 空 间 为 例 ，SSD 容 量 是 180 个 小 方块 ， 当 OP 是 36 
个 小 方块 时 ， 整 个 SSD 闪 存 空间 为 216 个 小 方块 ，OP 比 例 是 
36/180=20%。 那 么 180 个 小 方块 的 用 户 数 据 平 均 分 挫 到 216 个 小 方块 时 ， 
每 个 小 方块 的 平均 有 效 数据 为 180/216=0.83， 一 个 闪存 块 上 的 有 效 数 据 
为 0.83x9=7.5， 也 就 是 一 个 闪存 块 上 面 平均 有 7.5 个 浅 色 块 和 1.5 个 深 色 
块 。 为 了 写 1.5 个 用 户 数据 方块 ， 需 要 写 9 个 方块 的 数据 〈 原 有 7.5 个 有 效 
数据 ， 加 1.5 个 用 户 数 据 ) ， 写 放大 是 9/1.5=6。 


如 果 整 个 SSD 闪 存 空间 不 变 ， 还 是 216 个 小 方块 ， 调 整 OP 比 例 至 72 
个 小 方块 《牺牲 用 户 空 间 ，OP 比 例 50%) ， 因 此 ，SSD 容 量 就 变 成 144 
个 小 方块 。144 个 小 方块 的 用 户 数据 平均 分 摊 到 216 个 小 方块 时 ， 每 个 小 
方块 的 平均 有 效 数据 为 144/216=0.67， 一 个 闪存 块 上 的 有 效 数据 为 
0.67x9x6， 也 就 是 一 个 闪存 块 上 面 平均 有 6 个 浅 色 块 和 3 个 深 色 块 。 为 了 
写 3 个 用 户 数据 方块 ， 需 要 写 9 个 方块 的 数据 ( 原 有 6 个 有 效 数据 ， 加 3 个 
用 户 数据 ) ， 写 放大 是 9/3=3。 























从 上 可 见 ，OP 越 大 ， 写 放大 越 小 。 很 好 理解 ，OP 越 大 ， 每 个 闪存 
块 有 效 数 据 越 少 ， 垃 圾 越 多 ， 因 此 需要 重 写 更 少 的 数据 ， 因 此 写 放 大 越 
小 。 同 时 ， 由 于 GC 需要 重 写 的 数据 越 少 ，SSD 满 盘 写 性 能 也 越 好 。 

当然 ， 上 面 说 的 都 是 最 坏 的 情况 (垃圾 数据 平均 分 挫 到 每 个 闪存 块 
上 ) 。 现 实 是 ， 垃 圾 数据 大 多 数 时 候 并 不 是 平均 分 配 到 每 个 闪存 块 上 ， 
有 些 块 上 的 垃圾 多 ， 有 些 块 上 的 垃圾 少 ， 实 际 GC 挑 选 闪 存 块 ， 是 挑 垃 
圾 多 的 ， 因 此 ， 实 际 写 放大 是 小 于 前 面 的 计算 值 的。 

OP 大 小 和 写 放 大 以 及 SSD 耐 写 度 的 关系 如 图 4-25 所 示 。 


OP 与 写 放 大 、 耐 写 度 的 关系 




















图 4-25 ”OP 大 小 对 写 放大 和 耐 写 度 的 影响 





忆 结 一 下 : WA 越 小 越 好 ， 因 为 越 小 意味 看 对 闪存 的 损耗 越 小 ， 可 
以 延长 内 存 使 用 寿命 ， 从 而 支持 更 多 的 用 户 数 据 写 入 量 ; OP 越 大 越 
好 ，OP 越 大 ， 意 味 着 写 放 大 越 小 ， 也 意味 着 SSD 写 性 能 越 好 。 

影 啊 写 放大 的 因素 主要 有 : 


OP: OP 越 大 ，WA 越 小 。 








:用 户 写 入 的 数据 Pattern: 如 前 文 所 见 ， 如 果 数 据 都 是 顺序 写 入 ， 
GC 做 的 量 束 少 〈 最 好 的 情况 是 整个 内 存 块 都 是 无 效 数 据 ， 只 需 欣 除 ， 
无 需 数据 搬移 ) ， 写 放大 小 。 

GCR: 在 挑选 源 闪 存 块 的 时 候 ， 如 果 不 挑选 有 效 数 据 最 少 〈 垃 
圾 数据 最 多 ) 的 块 作为 源 闪 存 块 ， 就 会 增加 写 放 大 ; 另外 ， 控 制 后 台 
GC 产 生 衬 朵 闪存 块 的 数量 ， 也 能 减 小 写 放 大 。 

Em FE: 为 平衡 每 个 内 存 块 的 探 除 次 数 ， 需 要 数据 的 搬移 。 


` 读 干扰 (Read disturb) 和 数据 保存 处 理 (Data Retention 
handling) : 数据 搬移 增加 写 放 大 。 


CETERI 带 压 缩 和 不 带 压 缩 的 控制 器 肯定 会 影响 写 放 大 。 
Trim: 有 没有 Trim， 对 写 放 大 影响 很 大 。 











4.3.8. 垃圾 回收 实现 
垃圾 回收 可 以 简单 地 分 为 三 步 : 
D 挑选 源 闪 存 块 。 
2) 从 源 闪存 块 中 找 有 效 数 据 。 
3) 把 有 效 数据 写 入 到 有 目标 闪存 块 。 


挑选 源 内 存 块 ， 一 个 音 见 的 算法 就 是 挑选 有 效 数 据 最 小 的 块 ， 这 样 
需要 重 写 的 有 效 数 据 束 越 少 ， 写 放大 上 自然 最 小 ， 回 收 一 个 块 付出 的 代价 
也 最 小 。 那 么 ，Die 中 那么 多 内 存 块 ， 怎 么 就 能 一 下 子 找到 有 效 数 据 最 
小 的 那个 块 呢 ? 


这 需要 固件 在 写 用 户 数据 时 做 一 些 额外 的 工作 ， 即 记录 和 维护 每 个 
用 户 内 存 块 的 有 效 数 据 量 。 用 户 每 往 一 个 新 的 块 上 写 入 一 笔 用 户 数据 ， 
该 闪存 块 上 的 有 效 数 据 数 就 加 1。 同 时 还 需要 找到 这 笔 数据 之 前 所 在 的 
块 《 如 果 之 前 该 笔 数 据 曾 写 入 过 ) ， 由 于 该 笔 数 据 写 入 到 新 的 块 ， 那 么 
在 原 内 存 块 上 的 数据 束 变 无 效 了 ， 因 此 原 内 存 块 上 的 有 效 数 据 量 应 该 减 
1e 








还 是 以 前 面 的 小 型 SSD 为 例 : 


当 用 户 没有 写 入 任何 数据 时 ， 所 有 闪存 块 上 的 有 效 数 据 都 为 0， 如 
表 4-3 所 示 。 


表 4-3 ”初始 化 每 个 内存 块 的 有 效 数据 





当 往 Block 0 上 写 入 逻辑 页 1、2、3、4 后 ，Block 0 的 有 效 数 据 就 变 
成 4( 见 图 4-26 和 表 4-4) 。 


| 当 用 户 空 间 写 满 后 ， 每 个 内 存 块 上 有 效 数据 如 图 4-27 和 表 4-5 下 所 
7]vo 

履 盖 写 后 ， 用 户 空间 如 图 4-25 所 示 。 

由 于 逻辑 页 1、2、3、4 写 入 到 Block 5 上 ，Block 5 上 的 有 效 数 据 变 
成 4， 所 以 逻辑 页 1、2、3、4 在 之 前 所 在 的 Block 0 上 变 成 无 效 ， 因 此 在 


写 入 逻辑 页 1、2、3、4 的 时 候 ， 不 仪 要 更 新 Block 5 上 的 有 效 数 据 为 4， 
还 应 该 把 Block 0 上 的 有 效 数 据 相 应 地 减少 4， 如 表 4-6 所 示 。 


CHO CHI CH2 CH3 


EH | NE | NN | NN | 





图 4-26 Block 0 上 写 入 4 个 逻辑 页 
表 4-4 Block 0 有 效 数 据 更 新 为 4 





CHO CHI CH2 CFH3 


Block 0 
Block ı | 49| 53| 57| so[ s4| ss 
61| 65| 69| 62| 66| 70 
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Block2 | 85| 89| 93| s6| 90| 94 
102 
er rns pups nsns 
Block 3 [121 | 125 | 129 | 122 | 126 | 130] sper pes pros ps 
apoo ns 142 | 135 
shefi 


Block 4 162 





图 4-27 首次 写 满 用 户 空间 
表 4-5 ”首次 用 户 空间 写 满 后 内 存 块 上 有 效 数 据 统 计 
有 效 数 据 量 
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图 4-28 用户 空间 写 满 后 继续 写 入 4 个 逻辑 页 
表 4-6 ”覆盖 写 后 SSD 中 闪存 块 有 效 数据 统计 

















由 于 固件 维护 了 每 个 内 存 块 的 有 效 数 据 量 ， 因 此 在 GC 的 时 候 能 快 
速 找到 有 效 数 据 最 少 的 那个 块 。 


挑选 有 效 数据 最 少 的 那个 块 作为 源 闪 存 块 ， 这 种 BPA 算 法 叫 作 
Greedy 算 法 ， 是 绝 大 多 数 SSD 采 用 的 一 种 策略 。 除 此 之 外 ， 还 有 其 他 的 
BPA 算 法 。 比 如 ， 除 了 基于 闪存 块 有 效 数 据 量 ， 有 些 SSD 在 挑选 源 内 存 
块 时 ， 还 把 闪存 块 的 擦 写 次 数 考虑 进去 了 ， 这 其 实 暗藏 着 磨损 平衡 算法 











(后 面 会 详细 介绍 ) 。 挑 选 内 存 块 时 ， 一 方面 ， 我 们 希望 挑 有 效 数 据 最 
少 的 (快速 得 到 一 个 新 的 闪存 块 〉; 男 一 方面 ， 我 们 期 望 挑选 擦 写 次 数 
最 小 的 《分 摊 拟 写 次 数 到 每 个 闪存 块 ) 。 如 果 两 者 都 具备 ， 那 最 好 不 过 
了 。 但 现实 是 ， 的 写 次 数 最 小 的 闪存 块 ， 有 效 数 据 未 必 最 少 ， 有效 数据 
最 少 的 闪存 块 ， 擦 写 次 数 未 必 最 小 。 因 此 ， 需 要 给 有 效 数据 和 擦 写 次 数 
设 定 一 个 权重 因子 ， 进 而 得 到 一 个 最 优 的 选择 。 这 种 方法 的 好 处 是 可 以 
把 磨损 平衡 算法 做 到 GC 中 来 ， 可 以 不 需要 额外 的 磨损 平衡 算法 ;缺点 
是 相对 单纯 只 看 有 效 数 据 策略 的 GC， 由 于 挑选 的 闪存 块 可 能 有 效 数 据 
很 多 ， 因 此 写 放 大 变 大 ，GC 性 能 变 差 。 


其 实 还 有 很 多 BPA 算 法 (可 以 上 www.ssdfans.com 查看 相关 文 
章 ) ， 但 在 实际 的 SSD 产 品 中 ， 主 要 还 是 应 用 前 面 提 到 的 两 种 策略 ， 简 
单 实 用 。 


这 是 GC 的 第 一 步 ， 挑 选 源 内 存 块 。 


第 二 步 就 是 把 数据 从 源 内 存 块 读 出 来 。 这 里 也 是 有 讲究 的 ， 怎 么 读 
才 是 最 有 效率 的 ?全 部 读 出 来 还 是 只 读 有 效 数据 ? AAW, SARRA 
效 数据 更 有 效率 了， 毕竟 我 们 只 需 重 写 有 效 数 据 。 我 赞同 这 个 观点 ， 但 
问题 来 了 ， 一 个 内 存 块 有 那么 多 逻辑 页 数据 ， 如 何 知 道 哪些 数据 是 有 
效 ， 哪 些 又 是 无 效 的 呢 ?” 如 图 4-29 所 示 。 
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图 4-29 ”用户 数据 随机 分 布 在 SSD 内 


当 我 们 挑选 Block 0《〈《 有 效 效 据 最 少 ) 来 做 垃圾 回收 时 ， 如 果 只 读 出 
有 效 数 据 《〈 浅 色 方块 ) ，FW 如 何 知 道 Block 0 上 哪些 数据 是 有 效 的 呢 ? 
办 法 总 是 有 的 。 


前 面 提 人 到， 固件 在 往 一 个 内 存 块 上 写 入 逻辑 页 时 ， 会 更 新 和 维护 内 
存 块 的 有 效 数 据 量 ， 因 此 可 以 快速 挑 中 源 内 存 块 。 更 进一步 ， 如 末 固 件 
不 仅仅 只 更 新 和 维护 内 存 块 的 有 效 数据 量 ， 还 给 闪存 块 一 个 Bitmap 表 ， 
标识 哪个 物理 页 〈 例 子 中 我 们 假设 逻辑 页 和 闪存 页 大 小 一 样 ) 是 否 有 
效 ， 那 么 在 做 GC 的 时 候 ， 固 件 只 需 根 据 Bitmap 表 的 信息 ， 把 有 效 数 据 
读 出 ， 然 后 重 写 即 可 。 具 体 做 法 跟前 面 介 绍 的 类 似 ， 即 固件 把 一 笔 逻 辑 
页 写 入 到 某 个 闪存 块 时 ， 该 内存 块 上 对 应 位 置 的 Bit 就 置 成 1. 一 个 内 存 
块 上 新 增 一 笔 有 效 数 据 ， 就 意味 大 该 笔 数 据 所 在 的 前 一 个 内 存 块 上 数据 
变 成 无 效 ， 因 此 需要 把 前 一 个 内 存 块 对 应 的 位 置 的 Bit 清 0〈 见 图 4- 
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图 4-30 SSDI AAA 3E TR TA IUIRS 
固件 往 Block 0 写 入 逻辑 页 0、1、2、3 后 ，Bitmap 信 息 如 表 4-7 所 


表 4-7 向 Block 0 写 入 后 ia 


| 


固件 写 满 后 ， 整 个 用 户 空 间 如 图 4-31 所 示 。 
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在 写 入 逻辑 页 1、2、3、4 的 时 候 ， 不 仅 要 更 新 Block 5 上 的 Bitmap， 
M e E N 
青 0， 如 表 4-9 所 示 。 


由 于 有 了 闪存 块 上 有 效 数 据 的 Bitmap， 在 GC 读 的 时 候 ， 固 件 就 能 
准确 定位 到 有 效 数 据 并 读 出 。Bitmap 存 在 的 好 处 ， 就 是 使 GC 更 有 效 
率 ， 但 固件 需要 付出 额外 的 代价 去 维护 每 个 闪存 块 的 Bitmap。 在 我 们 的 
例子 中 ， 每 个 闪存 块 〈 这 里 指 的 是 所 有 Die 上 同一 个 闪存 块 号 组 成 的 闪 
存 块 集合 ) 只 有 36 个 逻辑 页 ， 但 在 实际 情况 下 ， 每 个 内 存 块 有 可 能 存在 
一 两 千 个 闪存 页 ， 每 个 闪存 页 可 以 容纳 和 若干 个 逻辑 页 ， 因 此 ， 每 个 闪存 
块 的 Bitmap 需 要 占用 数目 不 小 的 存储 空间 。 对 带 DRAM 的 SSD 来 说 ， 
Bitmap 的 存储 空间 可 能 不 是 问题 ， 但 对 没有 DRAM 的 SSD 来 说 ， 可 能 束 
没有 那么 多 的 SRAM 来 存储 所 有 闪存 块 的 Bitmap。 对 DRAM-Less 的 SSD 
来 说 ， 由 于 SRAM 受 限 ， 只 能 在 SRAM 中 加 载 部 分 闪存 块 的 Bitmap， 因 
此 还 需要 Bitmap 的 换 入 换 出 〈 同 Map Table) ， 给 固件 带 来 不 小 的 开 
销 ， 实 现 起 来 没有 想象 中 的 简单 。 




















CHO CHI CH2 CH3 


ao 3] v| | «| sj 32 

Block 0 | 15 21 

Block 1 54| 58| 51| 55| s9| 52| 56| 60 

[ 61) 65| 69| 62| 66| 70| 63| 67| 71| 64| 68| 72 

73| 77| sıf 74| 78| 82| 75| 79| 83| 76| 80| 84 
Block2 | 85| 89| 93| 86| 90| 94 


114 | 118 
Block 3 
Block 4 [157 | 161 | 165 | 158 | 162 | 166 | 159 | 163 | 167 | 160 | 164 | 168 | 

(ERE RET ERIT ORIS ER [UNI EE RE EUNT, NE RR EIE 
ESSI | [ | [| | Í] |. 1 Ll 01 Ll. 

IEEE ENS HERE UR. RR E. E RES 

图 4-31 首次 SSD 用 户 空 间 写 满 后 
表 4-8 用 户 空 间 写 满 后 各 个 闪存 块 的 Bitmap 
闪存 块 号 有 效 数据 Bitmap ( 块 内 第 一 行 ) 
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图 4-32 ”用 户 空 间 写 满 后 继续 写 入 4 个 逻辑 页 
表 4-9 Ra A 


闪存 块 号 | 有 效 数 据 量 | 有 效 数据 Bitmap( 块 内 第 一 行 ) GD = 有 效 数 据 Bitmap ( 块 内 第 一 行 ) 


111 111 111 111 100 100 100 100 





如 果 没 有 每 个 闪存 块 的 有 效 数 据 Bitmap，FW 做 GC 的 时 候 ， 可 以 选 
择 把 所 有 数据 读 上 来 。 但 此 时 还 需要 解决 一 个 问题 ， 那 就 是 这 些 数 据 哪 
些 是 有 效 的 呢 ?” 也 就 是 哪些 数据 需要 重 写 呢 ? 


SSD 在 把 用 户 数据 写 到 内 存 的 时 候 ， 会 额外 打包 一 些 数 据 ， 我 们 叫 
它 元 数据 (Meta Data) ， 它 记录 着 该 笔 用 户 数据 的 相关 信息 ， 比 如 该 笔 
数据 对 应 的 逻辑 地 址 、 数据 长 度 度 ， 以 及 时 间 惟 《数据 写 入 到 闪存 的 时 








间 ) 等 。 因 此 ， 用 户 数 据 在 内 存 中 是 像 图 4-33 这 样 存储 的 。 


闪存 空间 
元 数据 用 户 数据 





Pa: Physical Address， 物 理 地 址 
La: Logical Address, i7 HJ 
TS: Timestamp, IR] ££ 
图 4-33 ”元 数据 和 用 户 数据 存储 的 例子 


GC 的 时 候 ，FW 把 数据 读 上 来 ， 残 获得 了 该 笔 数据 对 应 的 LBA， 要 
判断 该 数据 是 否 无 效 ， 需 要 奉 找 映射 表 ， 获 得 该 LBA 对 应 的 物理 地 址 ， 





如 果 该 地 址 与 该 数据 在 闪存 块 上 的 地 址 一 致 ， 就 说 明 是 有 效 的 ， 否 则 该 
数据 就 是 无 效 的 。 


把 源 闪 存 块 里 的 全 部 数据 读 出 来 ， 这 种 方式 的 缺点 显而易见 : GC 
做 得 慢 。 不 管 数 据 是 否 有 效 〈( 读 之 前 不 知道 是 否 有 效 ) ， 都 需要 读 出 
来 ， 然 后 还 需要 查找 映射 表 来 决定 该 笔 数据 是 否 无 效 。 这 对 带 DRAM 的 
SSD 来 说 问题 不 大 ， 因 为 其 所 有 映射 表 都 在 DRAM 中 ， 但 对 DRAM-Less 
的 SSD 来 说 ， 很 多 时 候 都 需要 从 闪存 里 面 把 映射 关系 读 上 来 ， 这 人 简直 是 
个 灾难 。 这 种 方式 的 好 处 就 是 FW 实现 起 来 简单 ， 不 需要 维护 额外 类 似 
EE 效 数据 Bitmap 之 类 的 东西 ， 不 需要 额外 的 RAM 资 源 和 FW 开 











还 有 一 个 折 中 的 办 法 。 就 是 除了 维护 L2P (Logical to Physical) 的 
映射 表 ， 还 维护 一 张 P2L (Physical to Logical) 的 表 。 该 表 记 录 了 每 个 
内 存 块 写 入 的 LBA， 该 P2L 数 据 写 在 该 内 存 块 的 某 个 位 置 (或 单独 存 
储 ) 。 当 回收 该 内 存 块 时 ， 首 先 把 该 P2L 表 加 载 上 来 ， 然 后 根据 上 面 的 
LBA， 依 次 查找 映射 表 ， 决 定 该 数据 是 否 有 效 ， 有 效 的 数据 会 被 读 出 
来 ， 然 后 重新 写 入 。 采 用 该 方法 ， 不 需要 把 该 内 存 块 上 的 所 有 数据 一 股 
脑 地 读 出 来 ， 但 还 是 需要 得 找 映 射 表 以 诀 定 数据 是 否 有 效 。 因 此 ， 该 方 
A 在 资源 和 固件 开销 上 也 是 处 于 中 间 


当 有 效 数 据 读 出 来 时 ， 节 后 一 步 就 是 重 写 ， 即 把 读 出 来 的 有 效 数 据 
写 入 闪存。 














4.3.4 垃圾 回收 时 机 


SSD 什 么 时 候 做 GC? 当 用 户 写 入 数据 时 ， 如 果 可 用 的 闪存 块 小 于 
一 定 冰 值 ， 这 时 就 需要 做 GC， 以 腾 出 空间 给 用 户 写 。 这 时 做 的 GC， 叫 
作 Foreground GC 〈 前 台 垃 圾 回收 ) 。 这 是 被 动 方式 ， 它 是 由 于 SSD 没 有 
多 少 可 用 的 内 存 块 时 ， 才 去 做 的 GC。 与 之 相对 应 的 ， 就 是 Background 
GC (后 台 垃 圾 回收 ) ， 它 是 在 SSD 空 闲 〈Idle) 的 时 候 ，SSD 主 动 去 做 
的 GC， 这 样 在 用 户 写 入 的 时 候 就 有 充裕 的 可 用 闪存 块 ， 不 需要 临时 抱 
佛 脚 〈 做 Foreground GC) ， 从 而 改善 用 户 写 入 性 能 。 但 是 ， 出 于 功 耗 
考虑 ， 有 些 SSD 可 能 就 不 做 后 台 垃 圾 回收 了 ， 当 SSD 空 了 后， 直接 进入 
省 电 模 式 ， 或 者 做 少量 的 GC， 然 后 进入 省 电 模 式 。 


这 是 常见 的 两 种 垃圾 回收 时 机 ， 都 是 SSD 自 己 内 部 控制 的 。 事 实 
上 ， 除 了 SSD 本 和 喘 ， 有 些 SSD 还 支持 主机 控制 其 去 做 GC。 这 个 比较 有 意 
思 ， 我 们 花 点 时 间 来 看 看 。 


2015 年 8 月 15 日 ，OCZ 发 布 了 一 款 SATA 接 口 企业 级 SSD 一 一 Saber 
1000HMS， 它 是 首 球 具有 “主机 管理 SSD”(Host Managed SSD, HMS) 
功能 的 SSD。 所 谓 HMS， 就 是 主机 通过 应 用 软件 获取 SSD 的 运行 状态 ， 
然后 控制 SSD 的 一 些 行为 。 


在 SSD 的 内 部 ， 运 行 着 一 些 后 台 任 务 ， 比 如 垃圾 回收 、 记 录 SSD 运 
行 日 志 等 。 这 些 后 台 任 务 的 执行 ， 会 影响 SSD 的 性 能 ， 并 且 使 得 SSD 的 
时 延 (latency) 不 可 预测 。HMS 技 术 使 得 主机 能 控制 SSD 的 后 台 任 务 ， 
后 台 任 务 执行 或 者 不 执行 ， 什 么 时 候 执 行 ， 什 么 时 候 不 执行 ， 主 机 是 可 


控 的 。 


这 有 什么 用 呢 ? 对 单个 SSD 来 说 ， 使 用 者 可 以 通过 HMS 软 件 ， 在 
SSD 空 内 时 让 其 执行 垃圾 回收 任务 ， 这 样 ， 在 后 续 的 写 入 过 程 中 ，SSD 
内 部 有 足够 的 空 用 块 可 写 ， 不 需要 临时 去 做 垃圾 回收 ， 从 而 提升 SSD 性 
能 ， 减 小 写 入 的 时 延 。 


Saber 1000HMS 是 企业 级 的 SSD。 相 比 客户 级 SSD， 稳 定 的 性 能 和 
时 延 是 企业 级 更 加 奶 求 的 。 后 台 任 务 的 存在 ， 使 得 SSD 性 能 和 时 延 很 难 
保持 一 致 。HMS 技 术 的 出 现 ， 使 得 整个 系统 具有 稳定 的 性 能 和 可 预测 的 
时 延 ， 如 图 4-34 所 示 。 























Reads per second (OPS) 





图 4-34 HMS 打 开 后 系统 性 能 平稳 


4.4 Trim 


对 一 个 文件 File A 来 说 ， 用 户 看 到 的 是 文件 ， 操 作 系 统 把 文件 划分 
为 若干 个 逻辑 块 ， 然 后 写 入 SSD 的 闪存 空间 。 当 用 户 删 除 掉 文 件 File A 
时 ， 其 实 它 只 是 切断 用 户 与 操作 系统 的 联系 ， 即 用 户 访问 不 到 这 些 地 址 
空间 ;而 在 SSD 内 部 ， 逻 辑 页 与 物理 页 的 英 射 关系 还 在 ， 文 件数 据 在 闪 
存 当 中 也 是 有 效 的 ， 如 图 4-35 所 示 。 





用 户 删 除 文件 A 





图 4-35 ”用户 删除 文件 示例 


在 没有 Trim 之 前 ，SSD 无 法 知道 那些 被 删除 的 数据 页 是 否 无 效 ， 必 
须 等 到 系统 要 求 在 相同 的 地 方 “〈“ 用 户 空 间 、 逻 辑 空间 ) 写 入 数据 时 才 知 
道 那些 数据 是 无 效 的 ， 进 而 放心 删除 。 由 于 SSD 不 知道 这 些 删除 的 数据 
已 经 无 效 ， 在 做 垃圾 回收 的 时 候 ， 仍 把 它 当 作 有 效 数 据 进 行 数据 的 搬 
移 ， 这 不 仅 影 响 到 GC 的 性 能 ， 还 影响 到 SSD 的 寿命 〈 写 放大 增 大 ) 。 


Trim 是 一 个 新 增 的 ATA 命 令 (Data Set Management) ， 专 为 SSD 而 
生 。 当 用 户 删 除 一 个 文件 时 ， 操 作 系 统 〈 对 Windows 来 说 ， 它 自 
Windows 7 开始 支持 Trim ) 会 发 Trim 命 令 给 SSD， 告 诉 SSD 该 文件 对 应 
的 数据 无 效 了 。 一 旦 SSD 知 道 哪些 数据 无 效 之 后 ， 在 做 垃圾 回收 的 时 候 
就 可 以 把 这 些 删 除 掉 的 数据 抛弃 掉 ， 不 做 无 谓 的 数据 搬移 。 这 样 不 仅 增 
强 了 SSD 的 性 能 ， 还 延长 了 SSD 寿 命 。 


SCSI 里 面 的 同等 命令 叫 UNMAP，NVMe 里 面 叫 Deallocate。 它 们 指 
的 都 是 同一 个 功能 。 





当 SSD 收 到 Trim 命 令 时 ， 它 要 做 些 什 么 呢 ? 


举 个 例子 。 主 机 通过 Trim 命 令 告 诉 SSD: 我 0 一 7 的 逻辑 页 上 的 数据 
删除 了 ， 你 可 以 把 它们 当 垃 圾 处 理 。 收 到 Trim 命 令 之 前 ， 逻 辑 页 0 一 7 有 
以 下 映射 ， 它 们 分 别 写 在 物理 地 址 PBA a~h， 如 图 4-36 所 示 。 


LBAO LBA 1| LBA 2| LBA 3 LBA 3||LBa 4||LBA s [aA e| rna 7 LBA7| < vit $E 


地 址 的 映射 表 


< 标记 物理 块 中 有 
效 数 据 的 bitmap 





-«— 记录 物理 块 有 效 
数据 个 数 的 表 


图 4-36 FTL 中 的 3 张 表 


如 前 所 述 ， 一 般 FTL 都 有 这 3 个 表 。FTL 映 射 表 记 录 每 个 LBA 对 应 的 
物理 页 位 置 。Valid Page Bit Map (VPBMO 记录 每 个 物理 块 上 哪个 页 有 
有 效 数据 ，Valid Page Count (VPC) 则 记录 每 个 物理 块 上 的 有 效 页 个 
数 。 通 常 GC 会 使 用 VPC 进 行 排序 来 回收 最 少 有 效 页 的 闪存 块 ，VPBM 则 
是 为 了 在 GC 时 只 读 有 用 的 数据 ， 也 有 部 分 FTL 会 省 略 这 个 表 。 


如 图 4-36 所 示 ，FTL 的 映射 往往 是 非常 分 散 的 ， 连 续 的 逻辑 页 对 应 
地 址 会 在 很 多 不 同 的 闪存 块 上 。SSD 收 到 Trim 命 E 为 了 实现 数据 册 
除 ， 固 件 要 按 顺 序 做 以 下 的 事情 《图 4-37 中 的 步骤 1 一 4) 。 





1) 清除 L2P table 到 空地 址 

2 ) 清除 Valid Page Bit map 上 对 应 的 bit 
4 ) 重复 以 上 3 步 直 到 完成 每 一 个 LBA 
5) 根据 新 的 VPC 重新 计算 GC 的 优先 级 
6 ) 回收 最 少 VPC 的 block 
7) 擦 除 全 是 垃圾 的 block 





图 4-37 FIL 处 理 TRIM 流 程 


Trim 的 实现 逻辑 基本 就 是 这 样 ， 不 同 的 SSD 实 现 可 能 略 有 不 同 ， 比 
如 如 果 没 有 有 效 数 据 Bitmap， 就 没有 图 4-37 中 的 第 2 步 操作 。 需 要 说 明 
的 是 ， 图 4-37 中 的 步 邓 5 一 7 是 Trim 命 令 处 理 后 ，GC 的 处 理 ， 它 们 不 是 
Trim 命 令 处 理 的 部 分 。Trim 命 令 是 不 会 触发 GC 的 。 


关于 Trim 的 更 多 内 容 ， 可 以 上 www.ssdfans.com 搜索 Trim 相 关 的 文 


IE 
ER 





45 磨损 平衡 


,, 认可 平衡 ， 就 是 让 SSD 中 的 每 个 内 存 块 的 认 损 (次 除 ) 才 保持 
ii. 











为 什么 要 做 磨损 平衡 ? 原因 是 内 存 都 是 有 寿命 的 ， 即 内 存 块 有 擦 写 
次 数 限 制 。 一 个 内 存 块 ， 如 果 其 探 写 次 数 超过 一 定 的 值 ， 那 么 该 块 就 变 
得 不 那么 可 笔 了 ， 甚 至 变 成 坏 块 不 能 用 了 。 如 果 不 做 磨损 平衡 ， 则 有 可 
能 出 现 有 些 内 存 块 频繁 拿 来 做 探 写 ， 这 些 内 存 块 很 容易 就 会 寿终正寝 。 
随 看 不 断 的 写 入 ， 越 来 越 多 的 坏 块 出 现 ， 最 后 导致 SSD 在 保质 期 前 就 挂 
0 sided diode eM didüY 











一 个 闪存 块 寿命 有 多 长 昵 ?” 从 SLC 十 几 万 的 擦 写 次 数 ， 到 MLC 几 千 
的 探 写 次 数 ， 然 后 到 TLC 的 一 两 干 次 甚至 几 百 次 擦 写 次 数 ， 随 着 闪存 工 
艺 不 断 向 前 推 ， 闪 存 的 寿命 越 来 越 短 ，SSD 对 磨损 平衡 的 处 理 要 求 也 越 
来 越 高 ， 如 图 4-38 所 示 。 
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图 4-38 ”不 同 制程 和 类 型 闪存 的 擦 写 次 数 


接 下 来 的 问题 就 是 ，SSD 是 怎么 做 磨损 平衡 的 呢 ? 


在 这 之 前 ， 我 们 先 抛 出 几 个 概念 : 冷 数据 (Cold Data) 和 热 数据 
(Hot Data) , FÆ (Old) 块 和 年 轻 的 (Young) 块 。 


所 谓 冷 数据 ， 残 是 用 户 不 经 常 更 新 的 数据 ， 比 如 用 户 写 入 SSD 的 操 
作 系 统 数据 、 只 读 文件 数据 、 小 电影 等 ， 相反 ， 热 数据 就 是 用 户 更 新 频 
繁 的 数据 。 数 据 的 频繁 更 新 ， 会 在 SSD 内 部 产生 很 多 垃圾 数据 (新 的 数 
据 写 入 导致 老 数据 失效 )。 


所 谓 年 老 的 块 ， 就 是 擦 写 次 数 比 较 多 的 内 存 块 ， 探 写 次 数 比 较 少 的 
闪存 块 ， 年 纪 相 对 小 ， 我 们 叫 它 年 轻 的 块 。SSD 很 容易 区 分 年 老 的 块 和 
年 轻 的 块 ， 看 它们 的 EC (Erase Count， 控 除 次 数 ) 就 可 以 了 ， 大 的 就 是 
老 的 ， 小 的 束 是 年 轻 的 。 


SSD 一 般 有 动态 磨损 平衡 (Dynamic WL) 和 静态 磨损 平衡 CStatic 
WL) 两 种 算法 。 动 态 磨 损 平衡 算法 的 基本 思想 是 把 热 数 据 写 到 年 轻 的 
块 上 ， 即 在 拿 一 个 新 的 内 存 块 用 来 写 的 时 候 ， 挑 选 探 写 次 数 小 的 ;静态 
磨损 平衡 算法 基本 思想 是 把 冷 数 据 写 到 年 老 的 块 上 ， 即 把 冷 数 据 搬 到 探 
写 次 数 比 较 多 的 内 存 块 上 。 


动态 磨损 平衡 可 能 相对 好 理解 一 些 : 在 写 入 新 数据 时 ， 挑 选 年 轻 力 
壮 的 内 存 块 ， 这 样 束 避免 了 一 直 往年 长 的 内 存 块 上 写 入 数据 ， 内 存 块 的 
擦 写 次 数 能 保持 一 个 比较 均衡 的 值 。 


我 们 重点 来 说 说 静态 磨损 平衡 。 


为 什么 还 需要 静态 磨损 平衡 ? 冷 数 据 由 于 不 经 党 更新， 它 写 在 一 个 
或 者 几 个 闪存 块 上 后 ， 基 本 保持 不 动 ， 这 样 ， 这 些 内 存 块 的 探 写 次 数 就 
不 会 增加 ; 相反 ， 对 别 的 内 存 块 ， 由 于 经 常 拿 来 写 入 用 户 数 据 ， 擦 写 次 
数 是 一 直 增 长 的 。 这 样 就 导致 内 存 块 的 探 写 不 均衡 ， 这 不 是 我 们 期 望 
的 。 因 此 ， 固 件 需 要 做 静态 磨损 平衡 ， 把 冷 数 据 搬 到 擦 写 次 数 比较 多 的 
闪存 块 上 ， 让 那些 劳 闸 功 高 的 年 老 内 存 块 休 居 一 下 ， 腾 出 来 的 年 轻 内 存 
块 去 蔡 年 老 的 闪存 块 承 受用 户 数据 的 写 入 。 


固件 具体 做 静态 磨损 平衡 的 时 候 ， 一 般 使 用 GC 机 制 来 做 ， 只 不 过 
它 挑选 源 内 存 块 时 ， 不 是 挑选 有 效 数 据 最 小 的 内 存 块 ， 而 是 挑选 冷 数据 
所 在 的 闪存 块 。 其 他 和 GC 差不多 ， 即 读 取 源 闪 存 块 上 的 有 效 数据 ， 然 
后 把 它 写 到 擦 写 次 数 相 对 大 的 内 存 块 上 去 。 














静态 磨损 平衡 可 能 导致 冷 数 据 和 热 数据 混在 同一 个 内 存 块 上 ， 即 冷 
数据 可 能 跟 用 户 刚 写 入 的 数据 混在 一 起 ， 或 者 冷 数 据 和 GC 的 数据 写 在 
一 起 ， 或 者 三 者 写 在 一 起 。 


m 1) SWL 数 据 和 用 户 数据 混在 一 起 写 在 同一 个 内存 块 上 ， 如 图 4-39 
和 外。 


2) SWL 数 据 和 GC 数据 混在 一 起 写 在 同一 个 闪存 块 上 ， 如 图 4-40 所 






热 数据 
图 4-39 SWL 和 用 户 数 据 写 在 一 起 


热 数据 
图 4-40 ”SWL 和 GC 数据 写 在 一 起 
3) 三 者 全 都 混在 一 起 写 在 同一 个 闪存 块 上 ， 如 图 4-41 所 示 。 


为 什么 我 要 提 冷 热 数据 混在 一 起 写 这 个 问题 ? 冷 热 数 据 混在 一 起 写 
不 好 吗 ? 


的 确 有 不 好 的 地 方 ， 那 就 是 在 做 GC 的 时 候 ， 由 于 冷 数 据 掺 杂 其 中 
( 冷 数 据 由 于 不 经 常 被 用 户 更 改 ， 这 些 数据 往往 是 有 效 数据 ) ， 这 些 冷 
数据 就 可 能 经 常 地 从 一 个 闪存 块 搬 到 另外 一 个 闪存 块 ， 然 后 从 另外 一 个 
PEREIRAN EE, KEDE, SATRON, SA 
写 放 大 增 大 。 


有 读者 要 问 ， 那 该 怎么 办 ? 下 面 提供 一 种 解决 方案 。 


解决 办 法 如 图 4-42 所 示 ， 做 静态 磨损 平衡 的 时 候 ， 用 专门 的 内 存 块 
来 放 冷 数据 ， 即 不 与 用 户 或 者 GC 写 入 同一 个 内 存 块 。 这 样 冷 数据 就 单 
独 写 在 茶 些 闪存 块 上 ， 它 们 一 般 不 会 挑选 为 GC 的 源 内 存 块 ， 也 就 避免 
了 这 些 冷 数据 的 频繁 搬移 。 它 只 有 在 下 一 次 需要 做 静态 磨损 平衡 的 时 
候 ， 才 会 从 一 个 内 存 块 搬 到 另外 一 个 内 存 块 。 








图 4-42 ” 冷 热 数据 分 开 存 储 


不 同 的 SSD 有 不 同 的 静态 磨损 平衡 做 法 。 如 果 不 在 乎 写 放 大 (ECH 
RIEK, DER) ， 也 不 在 乎 冷 数 据 搬移 导致 的 性 能 下 降 ， 那 么 冷 热 数 
据 混 在 一 起 就 一 起 ， 毕 葛 实 现 简单 〈 不 需要 另外 管理 静态 磨损 平衡 的 内 
; 相反 ， 如 果 对 写 放 大 比较 敏感 的 话 ， 那 么 最 好 还 是 冷 热 数据 分 
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E E 重新 上 电 后 ，SSD 痢 需要 能 从 挥 电 中 恢复 过 来 ， 
常 工 


先 说 正常 掉 电 。 在 掉 电 前 ， 主 机 会 通过 命令 通知 SSD， 比 如 SATA 
中 的 Idle Immediately，SSD 收 到 该 命令 后 ， 主 要 会 做 以 下 事情 : 


:把 buffer 中 绥 存 的 用 户 数据 刷 入 闪存 。 
-把 映射 表 刷 入 闪存 。 


把 内 存 的 块 信息 写 入 闪存 i UR 
到 该 内 存 块 的 哪个 位 置 ， 哪 些 闪 存 块 已 经 写 过 ， 哪 些 闪存 块 又 是 无 效 的 
SE) e 


-把 SSD 其 他 信息 写 入 闪存 。 


主机 等 SSD 处 理 完 以 上 事情 后 ， 才 会 真正 停止 对 SSD 的 供电 。 正 各 
掉 电 不 会 导致 数据 的 丢失 ， 重 新 上 电 后 ，SSD 只 需 把 掉 电 前 保存 的 相关 
2 闪存 块 信息 等 ) 重新 加 载 ， 又 能 接着 掉 电 前 的 状 

继续 工 


如 果 SSD 世 界 只 存在 正常 掉 电 ， 那 么 SSD 的 实现 就 会 简单 很 多 。 可 
突如其来 的 掉 电 【异常 掉 电 ) ， 对 SSD 来 说 ， 没 有 “ 喜 ”， 只 
e 
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Hi; 或 者 收 到 主机 的 掉 电 通知 ， 但 还 没有 来 得 及 处 理 上 面 提 到 的 那些 事 
情 ， 束 被 断 电 了 。 异 常 挥 电 可 能 会 导致 数据 的 丢失 ， 比 如 绥 存 在 SSD 中 
的 数据 来 不 及 写 到 闪存 ， 挥 电导 致 这 部 分 数据 丢失 。 还 有 ， 根 据 闪 存 特 
性 ， 如 果 掉 电 发 生 在 写 MLC 的 Upper page， 会 导致 其 对 应 的 Lower Page 
数据 遭 到 破坏 ， 也 就 是 意味 着 之 前 写 入 闪存 的 数据 也 可 能 由 于 异常 挥 电 
导致 丢失 。 异 背 掉 电 恢 复 的 目的 一 方面 是 尽 可 能 恢复 用 户 数据 ， 把 损失 
WEEK: 另 一 方面 是 让 SSD 经 历 异 常 掉 电 后 还 能 正常 工作 。 
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SSD 为 什么 怕 异 常 掉 电 ? 它 不 是 用 闪存 做 存储 介质 吗 ? 它 不 是 数据 
掉 电 不 丢失 吗 ? 没 错 。 不 过 一 个 SSD， 除 了 数据 掉 电 不 丢失 的 内存， 还 
需要 有 掉 电 数据 丢失 的 RAM、SRAM 或 者 DRAM。 闪 存 的 作用 是 存储 数 
据 ， 而 RAM 的 作用 主要 是 SSD 工 作 时 用 以 缓存 用 户 数据 和 存放 映射 表 
(Map Table， 逻 辑 地 址 映射 闪存 物理 地 址 ) 。 所 以 一 旦 掉 电 ，RAM 的 
数据 就 会 丢失 。 


为 防止 异常 掉 电 导致 的 数据 丢失 ， 一 个 简单 的 设计 就 是 在 SSD 上 加 
电容 ，SSD 一 旦 检测 到 掉 电 ， 就 让 电容 开始 放电 ， 然 后 把 RAM 中 的 数据 
刷 到 闪存 上 面 去 ， 从 而 避免 数据 丢失 。 企 业 级 的 SSD 一 般 都 带 有 电容 。 
带电 容 的 SSD， 还 是 需要 设计 异常 掉 电 处 理 模 块 ， 因 为 电容 不 能 100% 保 
证 SSD 在 掉 电 前 把 所 有 的 信息 刷 入 闪存 。 


还 有 一 个 比较 前 卫 的 想法 ， 就 是 把 RAM 这 种 Volatile( 掉 电 数 据 丢 
R) 的 东西 ， 用 Non-Volatile( 掉 电 数 据 不 丢失 ) 的 东西 来 蔡 代 ， 但 要 
求 这 种 Non-Volatile 的 东西 性 能 上 接近 RAM。 这 样 ， 整 个 SSD 都 是 Non- 
Volatile 的 了 。Intel 和 Micron 合 作 开 发 的 3D XPoint， 可 作为 一 个 选择 。 
3D XPoint 兼 有 闪存 掉 电 数据 不 丢失 和 内 存 快 速 访问 的 特点 。 


RAM 中 缓存 的 用 户 数据 ， 主 机 目 认 为 把 它们 写 到 SSD 了 〈 非 FUA 命 
令 ， 数 据 写 到 缓存 ，SSD 就 返回 状态 给 主机 ) ， 但 SSD 只 是 把 它们 缓存 
在 RAM 中 ， 并 没有 写 到 闪存 。 异 常 掉 电 时 ， 如 果 SSD 上 没有 使 用 电容 ， 
也 没有 使 用 其 他 黑 科技 ， 这 部 分 数据 便 损 失 无 疑 。 重 上 电 时 ， 主 机 是 再 
也 读 不 到 这 些 数据 了 。 


掉 电 还 会 导致 RAM 中 映射 表 丢 失 。 了 映射 表 数据 很 重要 ， 对 一 个 逻 
辑 地 址 ， 如 果 SSD 查 找 不 到 对 应 的 物理 地 址 ， 它 就 无 法 从 闪存 上 读 取 数 
据 返 回 给 主机 。 如 果 了 映射 表 中 的 数据 不 是 最 新 的 ， 旧 的 物理 地 址 对 应 着 
老 的 数据 ，SSD 就 会 错误 地 把 老 数 据 返 回 给 主机 ， 这 个 问题 就 严重 了 。 


阿 采 原 账 户 上 有 10 元 钱 ， 最 近 存 入 100 万 元 ， 但 由 于 异常 掉 电 导致 
银行 没有 把 100 万 元 写 入 数据 库 ， 下 次 阿 采 到 ATM 上 一 看 ， 怎 么 还 是 10 
元 钱 ? 阿 呆 当时 就 昏 死 过 去 ! 异常 掉 电 害 死 人 。 


但 是 ， 和 RAM 中 用 户 数据 丢失 不 同 ，RAM 中 映射 表 数 据 是 有 办 法 
恢复 过 来 的 。SSD 的 异常 挥 电 恢 复 主 要 束 是 映 财 表 的 恢复 重建 。 




















那么 ， 如 何 重 建 映 射 表 呢 ? 下 面 介绍 一 种 重 构 策略 〈 不 同 的 SSD 重 
构 策略 略 有 不 同 ， 但 大 同 小 异 ) 。SSD 在 把 用 户 数据 写 到 闪存 的 时 候 ， 
会 额外 打包 一 些 数据 ， 我 们 叫 它 元 数据 (Meta Data? ， 它 记录 着 该 笔 用 
户 数 据 的 相关 信息 ， 比 如 该 笔 数 据 对 应 的 逻辑 地 址 、 数 据 写 入 时 间 “〈 时 
[ERO 等 ， 如 图 4-43 所 示 。 








元 数据 : | 多 辑 地 址 (LBA) 
图 4-43 ”元 数据 内 容 示 例 
因此 ， 用 户 数据 在 闪存 中 是 像 下 面 这 样 存储 的 〈 见 图 4-44) 。 








闪存 空间 
元 数据 用 户 数据 





Pa: Physical Address, Jt Ht 
La: Logical Address， 迎 辑 地 址 
TS: Timestamp, MJER 
图 4-44 “元 数据 和 用 户 数据 存储 示例 


以 图 4-44 为 例 ， 如 果 我 们 读 取 物 理 地 址 Pa x， 就 能 读 取 到 元 数据 xz 和 
用 户 数 据 x， 而 元 数据 是 有 逻辑 地 址 La x 的 ， 因 此 ， 我 们 就 能 获得 映 
Jj: Lax-Pax。 了 映射 表 的 恢复 原理 其 实 很 简单 ， 只 要 全 盘 扫 描 整 个 内 
存 空间 ， 丈 能 获得 所 有 的 映射 和 关系， 最 终 完成 整个 映射 表 的 重 构 。 











原理 简单 ， 但 实现 起 来 还 有 一 些 问 题 需要 考虑 ， 比 如 如 何 解决 数据 
新 旧 问 题 、 重 构 速 度 问 题 等 。 


同一 逻辑 地 址 ， 用 户 可 能 写 过 各 和 干 次 ， 在 闪存 空间 ， 该 逻辑 地 址 对 
应 的 数据 有 很 多 是 旧 数 据 ， 只 有 一 笔 是 新 数据 ， 那 么 如 何 杜 别 哪些 数据 
是 旧 的 ， 哪 些 数据 是 新 的 呢 ? 如 何 让 逻辑 地 址 映射 到 最 新 数据 所 在 的 物 
理 地 址 呢 ? 以 图 4-44 为 例 ，SSD 起 初 把 逻辑 地 址 La 2 的 数据 写 在 物理 地 
址 Pa2 上 ; 之 后 ， 用 户 又 改写 了 那 笔 数 据 ，SSD 把 它 写 到 了 物理 地 址 Pa 
8 上 。 我 们 知道 ， 用 户 最 后 写 入 的 数据 总 是 最 新 的 。 在 这 里 ， 时 间 惟 帮 
上 大 忙 了 ， 哪 个 值 大 ， 就 表示 哪个 是 最 后 写 入 的 。SSD 可 以 依赖 Meta 
data 中 的 时 间 惟 来 区 分 新 旧 数 据 的 。 图 4-44 中 ， 在 全 盘 扫 描 时 ， 假 设 扫 
描 顺 序 是 从 物理 地 址 Pa 1 到 物理 地 址 Pa x， 对 逻辑 地 址 La 2 来 说 ， 开 始 
会 产生 映射 La 2 “Pa2， 但 扫描 到 Pa 8 时 ， 发 现时 间 戳 比 之 前 的 更 新 ， 

于 是 新 的 映射 取代 旧 的 映射 ， 最 后 得 到 映射 关系 : La 2- Pa 8. 


全 盘 扫描 有 一 个 问题 ， 就 是 映射 表 恢 复 很 慢 ， 所 耗 的 时 间 与 SSD 容 
量 成 正比 。 现 在 SSD 容 量 已 达到 TB 级 别 ， 全 盘 扫 描 映 射 方式 ， 重 构 映 射 
表 需 要 花费 几 分 钟 甚至 几 十 分 钟 ， 这 在 实际 使 用 中 ， 用 户 是 不 能 接受 
的 。 那 SSD 内 部 是 如 何 快速 恢复 映射 表 的 呢 ? 


一 种 办 法 就 是 SSD 定 期 把 SSD 中 RAM 的 数据 〈 包 括 映 射 表 和 缓存 的 
用 户 数据 ) 和 SSD 相 关 的 状态 信息 《诸如 闪存 块 探 写 次 数 、 闪 存 块 读 次 
数 、 闪 存 块 其 他 信息 等 ) 写 入 到 闪存 中 去 ， 与 正常 掉 电 前 SSD 要 做 的 事 
情 类 似 ， 这 个 操作 我 们 称 之 为 做 Checkpoint 〈 检 查 点 ， 此 处 译 成 * 快 
照 ? 更 合适 ) ， 如 图 4-45 所 示 。 














时 间 轴 


快照 A 快照 也 快照 C 快 昭 了 D 
图 4-45 ”定期 给 SSD 拍 照 


假设 图 4-45 中 ， 在 做 完 快照 C 后 ， 做 下 一 个 快照 D 之 前 ，SSD 在 X 处 
发 生 了 异常 掉 电 ， 如 图 4-46 所 示 。 





快照 A WEB 快照 C 快照 D 
图 4-46 ”异常 掉 电 发 生 在 快照 C 后 


重 上 电 ，SSD 可 以 从 闪存 中 读 取 到 最 新 的 快照 信息 ， 即 快照 C。 由 
于 异常 掉 电 ， 从 快照 C 处 到 X 处 新 产生 的 映射 关系 丢失 。 由 于 之 前 绝 大 
多 数 的 映射 关系 都 被 快照 C 保 存 ， 因 此 需要 重建 的 映射 关系 仅仅 是 快照 
C 之 后 产生 的 映射 关系 ， 这 部 分 关系 的 恢复 ， 仅 需 扫 描 一 些 局 部 的 物理 
空间 ， 因 此 ， 相 对 全 盘 扫 描 ， 映 射 表 重 建 速度 大 大 加 快 。 





47 坏 块 管理 
4.7.1 ” 坏 块 来 源 


坏 块 来 源 主要 包括 : 


出厂 坏 块 (Factory Bad Block) : 闪存 从 工厂 出 来 ， 束 或 多 或 少 的 
有 一 些 坏 块 。 


:增长 十 块 (Grown Bad Block) : 随 着 闪存 的 使 用 ， 一 些 初期 好 块 
也 会 变 成 坏 块 。 变 坏 的 原因 ， 主 要 是 擦 写 磨损 。 





4.7.2. KERRY 








闪存 广 商 在 闪存 出 广 时 ， 会 对 出 广 坏 块 做 特殊 标记 。 一 般 来 说 ， 刚 
出 厂 的 闪存 都 被 擦 除 ， 里 面 的 数据 是 全 0xFF。 但 是 对 坏 块 来 说 ， 闪 存 三 
商会 打上 不 同 的 标记 。 拿 TOSHIBA 某 型 号 闪存 来 说 ， 它 是 这 样 标记 出 
厂 坏 块 的 ， 如 图 4-47 所 示 。 





出 广 坏 块 标记 





Spare 区 的 第 一 个 字 节 
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Spare 区 的 第 一 个 字 节 
图 4-47 ”出厂 坏 块 标记 示意 图 


它 会 在 出 三 坏 块 的 第 一 个 内 存 页 和 最 后 一 个 内 存 页 的 数据 区 第 一 个 
字 节 和 Spare 区 第 一 个 字 节 写 上 一 个 非 0xFF 的 值 。 


用 户 在 使 用 闪存 的 时 候 ， 首 先 应 该 按照 闪存 文档 ， 扫 描 所 有 的 闪存 
块 ， 把 坏 块 剔除 出 来 ， 建 立 一 张 坏 块 表 。 还 是 拿 上 面 的 闪存 来 说 ， 
TOSHIBA 建 议 按照 下 面 的 流程 来 建立 坏 块 表 〈 见 图 4-48) 。 








探 除 所 有 块 
访问 第 一 块 




















检查 第 一 页 的 第 一 个 
字 节 是 否 FFh 






检查 最 后 一 页 的 第 一 
个 字 节 是 和 否 FFh 








图 4-48 根据 出 广 坏 块 标记 建立 坏 块 表 流 程 图 


还 有 些 闪 存 厂 商 ， 它 会 把 坏 块 信息 存储 在 闪存 内 部 某 个 地 方 ( 挥 电 
DER) ， 用 户 在 建立 坏 块 表 的 时 候 ， 没 有 必要 扫描 所 有 的 内 存 块 来 识 
别 坏 块 ， 只 需 读 取 内 存 的 那个 特定 区 域 。 比 如 Micron， 它 的 闪存 内 部 有 
个 叫 OTP COne Time Programming) 的 区 域 ， 出 广 坏 块 信息 可 以 存在 里 
面 。 








对 增长 坏 块 而 言 ， 它 的 出 现 会 通过 读 写 探 等 操作 反映 出 来 。 比 如 读 
到 UECC (Uncorrectable Error Correction Code， 数 据 没 有 办 法 通过 ECC 
纠 错 恢复 )、 擦 除 失 败 、 写 失败 ， 这 都 是 一 个 坏 块 出 现 的 症状 。 用 户 应 
该 把 这 些 坏 块 加 入 坏 块 表 ， 不 再 使 用 。 


4.7.3” 坏 块 管理 策略 

一 般 有 两 种 策略 管理 坏 块 ， 一 是 略 过 (Skip) 策略 ， 二 是 蔡 换 
(Replace) 策略 。 
1. 略 过 策略 


用 户 根据 建立 的 坏 块 表 ， 在 写 闪 存 的 时 候 ， 一 旦 遇 到 坏 块 就 路 过 
E 写 下 一 个 Block。 


SSD 的 存储 空间 是 闪存 阵列 ， 一 般 有 几 个 并 行 通道 ， 每 个 通道 上 连 
接 了 知 干 个 闪存。 以 图 4-49 为 例 ， 该 SSD 有 四 个 通道 ， 每 个 通道 上 挂 了 
一 个 闪存 Die。 

















通道 1 


图 4-49 ”上 略 过 坏 块 B 写 数据 


SSD 向 四 个 Die 依 次 写 入 。 假 设 Die 1 上 有 个 Block B 是 坏 块 ， 若 固件 
采取 坏 块 略 过 策略 ， 则 写 完 Block A 时 ， 接 下 来 便 会 跨 过 Block B 写 到 Die 
2 的 Block C 上 面 去 。 


2. 蔡 换 机 制 


与 略 过 策略 不 同 ， 当 某 个 Die 上 发 现 坏 块 时 ， 它 会 被 该 Die 上 的 某 个 
好 块 苦 换 。 用 户 在 写 数 据 的 时 候 ， 不 是 路 过 这 个 Die， 而 是 写 到 将 换 块 
上 上 面 去 。 采 用 此 集 略 ， 除 正常 用 户 使 用 的 闪存 块 ， 还 需 额外 保留 一 部 分 
好 的 内 存 块 ， 用 于 垩 换 用 户 空间 的 坏 块 。 整 个 Die 上 闪存 块 就 划分 为 两 
个 区 域 : 用 户 空 间 和 预 留 空间 ， 如 图 4-50 所 示 。 


还 是 以 上 面 的 情况 为 例 : 用 户 写 入 数据 时 ， 当 碰 到 坏 块 B， 它 不 会 
WexlDie 1 不 写 ， 而 是 写 入 到 BlockB 的 替换 者 Block B' 上 面 去 。 





用 成 空间 PER ^5 [H] 
图 4-50 ”闪存 空间 逻辑 上 分 为 用 户 空间 和 预 留 空间 


Die 0 Die 1 Die 2 Die 3 


Ha] 


BUR s [8] 





图 4-51 HRE RI NA EA 


采用 车 换 策 略 ，SSD 内 部 需 维 护 一 张 重 映射 表 〈Remap Table) : 坏 
块 到 蔡 换 块 的 映射 ， 比 如 图 4-51 的 B ~ B'。 当 SSD 需 要 访问 Block BE}, 
它 需 要 查找 重 映 射 表 ， 实 际 访问 的 物理 Block 应 该 是 B'。 


我 们 看 看 两 者 策略 的 优 劣 。 

略 过 策略 的 劣势 在 于 性 能 不 稳定 。 以 4 个 Die 为 例 ， 略 过 策略 可 能 4 
致 Die 的 并 行 度 在 1 和 4 个 Die 之 间 ， 而 替换 策略 并 行 度 总 是 4 个 Die， 荆 良 
置疑 ， 前 者 性 能 表现 不 如 后 者 。 但 蔡 换 策略 有 木 桶 效应 ， 如 果 某 个 Die 
质量 比较 差 ， 则 整个 SSD 可 用 的 闪存 块 则 受 限 于 那个 坏 的 Die。 





4.8 SLC cache 


SLC 相对 MLC 和 TLC 来 说 ， 有 更 好 的 读 写 性 能 和 更 长 的 寿命 。 下 面 
是 SLC、MLC 和 TLC 在 性 能 和 寿命 CEndurance) 上 的 一 个 直观 对 比 ， 如 
(不 同 制程 和 不 同 商家 的 闪存 ， 参 数 不 尽 相同 ， 数 据 仅 供 参 

) 。 





表 4-10 ”SLC、MLC 和 TLC 寿 命 和 性 能 比较 


闪存 类 型 pilo 
每 单元 比特 数 3 
(5) 
闪存 类 型 TH 
擦 写 次 (次 ) ^] 1000 


读 时 间 Cus) 
写 时 间 Cus) 
擦 除 时 间 (us) 





由 于 SLC 有 速度 优势 ， 因 此 有 些 SSD 拿 它 来 做 Cache 使 用 ， 让 SSD 具 
有 更 好 的 突 发 性 能 (Burst Performance? 。 


这 里 所 说 的 SLC Cache， 不 是 说 单独 拿 SLC 闪 存 来 做 Cache， 而 是 把 
MLC 或 者 TLC 里 面 的 一 些 闪存 块 配 置 成 SLC 模 式 来 访问 ， 而 这 个 特性 一 
般 的 MLC 或 者 TLC 都 是 支持 的 。SLC 模 式 下 的 闪存 块 ， 相 比 MLC 或 者 
TLC 模 式 下 的 内 存 块 ， 更 快 更 耐 写 ， 可 以 用 来 做 Cache。 

除了 性 能 ，SLC 还 有 更 好 的 耐 写 性 ， 寿 命 更 长 。 

使 用 SLC Cache 的 出 发 点 ， 主 要 有 以 下 几 点 : 


) 性 能 考虑 : SLC 性 能 好 ， 用 户 数据 写 到 SLC 比 直 接 写 到 MLC 或 
者 TLC 上 快 很 多 。 


2) 防止 Lower Page 数 据 被 市 坏 : 用 户 数 据 写 到 SLC， 不 存在 写 
Upper Page 或 者 Extra Page 带 坏 Lower Page 数 据 的 可 能 。 


3) 解决 闪存 的 缺陷 ， 比如 有 些 MLC 或 者 TLC 的 闪存 块 ， 如 果 没 有 





写 满 ， 然 后 去 读 的 话 ， 可 能 会 读 到 ECC 错 误 ， 而 对 SLC 模式 下 的 内 存 
块 ， 就 没有 这 个 问题 。 


4) 更 多 的 数据 写 入 量 : SLC 更 耐 写 。 


- 般 只 有 消费 级 SSD 或 者 移动 存储 (比如 eMMC、UFS 等 ) 使 用 
SLC Cache， 因 为 使 用 SLC Cache 具 有 更 好 的 突 友 性 能 ， 对 企业 级 SSD 来 
说 ， 它 追求 的 是 稳 态 速度 ， 它 不 希望 SSD 一 下 子 速度 奖 升 ( 写 SLC) ， 
然后 一 下 子 速度 急剧 下 降 ( 写 TLC) 。 


另外 ， 消 费 级 SSD 和 移动 存储 产品 一 般 都 没有 电容 保护 ， 使 用 SLC 
Cache 能 保证 Lower Page 数 据 不 丢失 ;而 企业 级 SSD 一 般 都 配 有 电容 ， 能 
保证 闪存 的 正常 号 入 ， 它 不 存在 Lower Page 数 据 被 带 坏 的 问题 ， 所 以 没 
有 必要 采用 SLC Cache 这 种 手段 来 保护 数据 。 


SLC Cache 写 入 策略 有 : 


.强制 SLC 写 入 : 用 户 写 入 数据 时 ， 必 须 先 写 入 到 SLC 闪存 块 ， 然 后 
通过 GC 搬 到 MLC 或 者 TLC 闪 存 块 ; 


: 非 强 制 SLC 写 入 : 用 户 写 入 数据 时 ， 如 果 有 SLC 闪 存 块 ， 则 写 入 到 
SLC 内 存 块 ， 否 则 直接 写 到 MLC 或 者 TLC 闪 存 块 。 


强制 写 入 策略 能 保护 Lower Page 数 据 ， 而 后 者 不 能 。 非 强制 SLC 写 
入 策略 ， 具 有 更 好 的 后 期 号 入 性 能 ， 因 为 在 SLC 闪存 块 耗 尽 的 情况 下 ， 
用 户 数据 直接 写 入 到 MLC 或 者 TLC; 而 对 强制 写 入 SLC 策略 来 说 ， 它 一 
方面 要 把 SLC 的 数据 搬 到 MLC 或 者 TLC， 以 腾 出 SLC 空间 供 新 用 户 数据 
uc 同时 又 要 把 用 户 数据 写 入 到 SLC， 人 性 能 肯定 比 只 写 MLC 或 者 
TLC 慢 。 


在 这 里 可 能 有 的 读者 有 疑惑 ， 强 制 写 入 SLC 策略 ，SLC 数 据 最 后 都 
要 搬 到 MLC 或 者 TLC， 所 以 还 是 存在 直接 写 MLC 或 者 TLC 的 事实 ， 也 就 
是 还 是 存在 Lower Page 数 据 被 带 坏 的 可 能 。 是 的 ， 没 错 ， 做 GC 〈 数 据 搬 
移 ) 是 有 这 个 问题 。 但 是 ， 如 果 我 们 在 目标 闪存 块 没 有 被 写 满 前 ， 不 把 
源 闪存 块 擦 除 ， 这 样 即使 Lower Page 数 据 被 带 坏 ， 它 还 是 能 通过 读 源 闪 
存 块 恢复 数据 ， 是 不 是 ? 


根据 SLC 闪存 块 的 来 源 ， 有 以 下 几 种 SLC Cache 办 法 。 


























1) 静态 SLC Cache: 拿 出 一 些 Block 专 门 用 做 SLC Cache; 


2) 动态 SLC Cache: 所 有 的 MLC 或 者 TLC 都 有 可 能 挑 来 当 SLC 
Cache，SLC 和 TLC 不 分 家 ; 


3) 两 者 混合 : 即 既 有 专门 的 SLC 闪存 块 ， 还 能 把 其 他 通用 闪存 块 
拿 来 当 SLC Cache。 


49 RD&DR 


RD 指 的 是 Read Disturb，DR 指 的 是 Data Retention。 两 者 都 能 导致 数 
据 丢 失 ， 但 原理 和 固件 处 理 方 式 都 不 一 样 ， 下 面 分 别 介绍 。 


].RD 


对 一 个 内 存 块 来 说 ， 每 次 读 其 中 的 一 个 内 存 页 ， 都 需要 在 其 他 字 线 
(Wordline〉 上 加 较 高 的 电压 以 保证 晶体 管 导 通 。 对 这 些 唱 体 管 来 说 ， 
有 点 像 在 做 轻微 的 “ 写 入 (Program) ”， 长 此 以 往 ， 由 于 电子 进入 浮 栅 
极 过 多 ， 从 而 导致 比特 翻转 : 1~0。 当 出 错 比 特 数 超出 ECC 的 纠 错 能 
时 ， 数 据 就 会 丢失。 这 就 是 RD 的 原理 ， 更 详细 的 内 容 可 参看 本 书 其 他 
章节 。RD 为 了 读 某 个 闪存 页 的 数据 ， 却 要 别 的 闪存 页 遭受 损失 ， 实 在 
是 有 些 损人 利己 。 


由 于 每 次 都 是 很 轻微 的 写 入 ， 要 使 存储 单元 数据 发 生变 化 ， 不 是 一 
明 一 夕 的 事情 ， 而 是 长 期 积累 的 结 末 。 因 此 ， 如 果 我 们 能 保证 菏 个 内 存 
块 读 的 次 数 低 于 东 个 闭 值 ， 在 比特 及 生 翻转 之 前 《或 者 翻转 的 比特 低 于 
某 个 值 时 )》 ， 就 对 这 个 内 存 块 上 的 数据 进行 一 次 刷新 : ENER E 
气 搬 到 别 的 内 存 块 上 《或 者 先 搬 到 别 的 内 存 块 上 ， 然 后 探 除 原 内 存 块 
后 ， 再 复制 回来 ) ， 防 患 于 未 然 ， 这 样 就 能 解决 RD 导致 数据 丢失 的 问 


i 








因此 ，EFTL 应 该 有 记录 每 个 闪存 块 读 次 数 的 一 张 表 : 每 读 一 次 该 闪 
存 块 ， 对 应 的 读 次 数 加 1。 当 FW 检 测 到 某 个 闪存 块 读 的 次 数 超过 某 个 国 
值 ， 就 刷新 该 闪存 块 。 当 数据 写 到 新 的 闪存 块 后 ， 读 次 数 归 零 ， 一 切 重 
ee 
时 ， IE EM] 


EKE, JEANEK ERRAZEI REN, E HAZE a 
能 并 没有 超过 很 多 (可 设 阐 值 )， 这 种 情况 就 没有 必要 立刻 刷新 。 毕 
竟 ， 刷 新 代 来 的 读数 据 和 写 数据 ， 需 要 耗 时 间 和 的 写 次 数 ， 对 性 能 和 内 
存 寿命 有 影响 。 因 此 ， 有 些 FTL 为 避免 “过 ?刷新 ， 可 能 会 在 读 次 数 超过 
装 值 后 ， 先 检测 比特 翻转 数 ， 然 后 决定 是 否 真正 需要 刷新 ， 如 采 不 需要 
立刻 刷新 ， 会 重新 设置 一 个 更 大 的 国 值 ， 生 下 次 读 的 次 数 达 到 新 效 值 
后 ， 重 复 之 前 的 操作 。 
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定 的 值 ， 这 种 处 理 简 单 粗 又 ， 很 不 科学 “但 固件 实现 简单 ) 。 其 实 ， 
RD 与 闪存 的 年 龄 有 关 : FRAK PERK) ， 对 RD 的 免疫 力 越 低 。 因 
此 ， 对 效 值 的 设 定 ， 采 用 动态 的 才 是 合理 的 ， 即 对 不 同 的 PE， 读 闪 值 应 
该 不 同 。 有 具体 来 说 ，PE 越 大 ， 读 闵 值 应 该 越 小 。 


关于 刷新 动作 ， 有 Block GE) 和 Non-block〈 非 阻塞 ) 两 种 处 理 
方式 。 所 谓 阻 塞 方式 ， 就 是 固件 把 其 他 事情 都 放 在 一 边 ， 专 门 处 理 闪 存 
块 的 刷新 ;所 谓 非 阻塞 方式 ， 就 是 内 存 块 的 刷新 与 其 他 操作 同时 进行 
CInterleave 操 作 ) 。 前 者 处 理 方式 劣势 明显 ， 那 就 是 带 来 很 长 的 命令 时 
4E: 在 处 理 闪 存 块 的 刷新 的 时 候 ， 就 不 能 执行 读 写 操作 ， 导 致 读 写 推 
后 。 随 着 闪存 块 尺寸 的 增 大 ， 这 种 处 理 方 式 的 劣势 越发 凸显 。 所 以 ， 现 
在 的 FTL 一 般 都 采用 非 阻塞 的 刷新 处 理 方式 。 


RD 就 说 到 这 里 ， 我 们 再 说 说 DR。 
2.DR 


中 国有 名 古话 ， 就 是 天 下 没有 不 透风 的 墙 。 用 到 闪存 上 ， 束 是 没有 
电子 穿越 不 了 的 绝缘 材料 。 绝 缘 氧 化 层 把 存储 在 浮 栅 极 的 电子 天 在 里 
面 ， 但 是 ， 随 着 时 间 的 推移 ， 还 是 有 电子 从 里 面 跑 出 来 。 当 跑 出 来 的 电 
于 达到 一 定数 量 时 ， 就 会 使 存储 单元 的 比特 发 生 翻转 : 0~1 QEA, 
RD 十 使 1 翻转 为 0) ， 当 出 错 比 特 数 超出 ECC 的 纠 错 能 力 ， 数 据 就 丢 
失 。 这 就 能 解释 为 什么 你 的 固态 硬盘 如 果 很 长 时 间 不 用 ， 可 能 就 启动 不 
E 00 


问题 来 了 ， 为 什么 SSD 长 久 不 用 数据 就 会 丢失 ， 而 经 第 使 用 却 不 会 
呢 ? 原因 是 FW 或 者 FTL 立 功 了 。 针 对 DR 这 个 问题 ， 稍 微 好 一 点 的 
SSD，FTL 都 会 有 相应 的 处 理 。 怎 么 处 理 呢 ?FTL 在 SSD 上 电 或 者 平时 
运行 时 ， 每 隔 一 段 时 间 对 闪存 空间 进行 扫描 ， 当 发 现 比 特 翻转 超出 一 定 
闹 值 时 ， 跟 RD 处 理 一 样 ， 进 行 数据 刷新 ， 这 样 就 能 避免 数据 彻底 天 
失 。SSD 如 果 常 年 不 上 电 ，FTL 根 本 就 没有 机 会 执行 这 些 操 作 ， 只 能 眼 
睁 睁 地 看 着 电子 流失 。 




















4.10 Host Based FTL 


按照 FTL 放 在 哪里 划分 ，SSD 有 Host Based FTL 和 Device Based FTL 
两 种 模式 。 


顾名思义 ，Host Based 把 FTL 放 在 主机 驱动 程序 中 ，Device Based 则 
是 把 FTL 放 在 SSD 主 控 内 部 。 大 部 分 企业 级 SSD 和 几乎 全 部 消费 级 SSD 
都 是 Device Based，SSD 主 控 必 片 做 了 包括 FTL 在 内 的 所 有 控制 工作 。 也 
有 一 些 企业 级 SSD 采 用 了 Host Based FTL， 像 垃圾 回收 、 磨 损 平 衡 、 坏 
块 管理 等 都 放 在 主机 驱动 程序 中 完成 ， 这 种 模式 的 优点 是 可 以 实现 差异 
化 ， 典 型 产品 是 FusionIO 。 





4.10.1 Device Based FTL 的 不 足 


“图 4-52 所 示 古 两 种 模式 的 染 a 构 对 比 。 看 得 出 来 ， 从 逻辑 上 来 说 ， 
完整 的 Device Based SSD 系 统 可 以 分 为 三 块 : 


1) 主机 驱动 :为 应 用 程序 提供 读 写 接口 ， 和 板 载 控制 器 通过 
NVMe 等 协议 进行 交互 ， 完 成 应 用 程序 的 读 写 命令 。 


2) 板 载 控制 需 

:通过 SATA、NVMe 等 协议 ， 接 收 主机 发 送 的 命令 并 执行 
-管理 SSD， 实 现 FTL 垃 圾 回收 、 磨 损 平衡 等 算法 。 
-控制 和 实现 闪存 时 序 。 

3) 闪存 阵列 : 存储 介质 。 


FTL 在 设备 端 FTL 在 主机 端 


PCIe. NVMe 协议 实现 


PCIe 协议 实现 


Flash HJF FE iil Flash 时 序 控制 





NAND Flash 阵列 NAND Flash PEYI] 
[44-52 Host Based FTL 和 Device Based FTL 架 构 比 较 


Device Based 是 个 通用 的 架构 ， 在 SATA、NVMe 等 协议 的 广泛 普及 
下 ， 产 品 越 来 越 标准 化 。CPU 制 造 商 提供 PCIe 或 者 SATA 文 持 ， 主 板 和 
服务 器 制造 商 为 SSD 提 供 接 口 和 槽 位， 操作 系统 开发 商 提供 SSD 标 准 化 
驱动 程序 ，SSD 制 造 商 只 需要 制造 出 符合 SATA、SAS 或 NVMe 标 准 的 
SSD 就 可 以 出 货 了 。 


大 家 分 工 合作 ， 互 不 干扰 ， 一 切 都 看 起 来 都 很 完美 。 在 三 商 的 立场 
上 确实 很 完美 ， 但 对 用 户 来 说 束 不 完美 7 了。SSD 之 所 以 是 一 场 存储 单 
命 ， 是 因为 它 实在 十 不 同 于 机 械 人 硬盘 。 在 HDD 时 代 ， 用 户 只 需要 对 着 每 
个 面 区 写 数 据 束 可 以 了 ， 不 管 是 什么 应 用 程序 ， 都 得 按 这 个 规 窍 来 。 
SSD 就 不 一 样 ， 它 包含 了 很 多 闪存 芯片 ， 这 些 世 片 可 以 并 行 读 写 ， 所 以 
有 些 用 户 希 望 能 针对 上 自己 的 应 用 特点 去 直接 管理 内 存 内 部 资源 ， 达 到 更 
高 的 效率 和 性 能 。 


总 体 来 说 ，Device Based 存 在 以 下 缺点 : 














FTL 架构 通用 ， 不 能 针对 具体 应 用 做 定制 化 。 
-控制 器 必 刻 功能 复 汪 ， 设 计 难 上 度 大 ， 研 发 成 本 高 。 


:闪存 更 新 很 快 ， 一 般 每 年 闪存 广 商 都 会 推出 新 一 代 产 品 ， 有 新 的 
使 用 特性 ， 震 要 控制 费心 片 做 出 修改 ， 但 是 已 片 改版 成 本 很 融 。 


“企业 级 应 用 需要 高 性 能 、 大 容量 ， 通 用 控制 絮 心 片 支持 的 最 大 性 
能 和 容量 有 限制 。 


.企业 级 市 场 需求 多 种 多 样 ， 有 些 需 求 需 要 控制 器 提供 特殊 功能 文 
持 ， 这 些 是 通用 SSD 主 控 忌 片 无 法 提供 的 。 


为 了 解决 这 些 问题 ， 有 些 企业 级 SSD 采 用 了 Host Based 方 案 。 也 有 
一 些 大 型 互联 网 公司 ， 例 如 Google、Microsoft， 还 有 百度 等 ， 自 己 研 发 
Host Based SSD， 人 针对 自己 的 存储 架构 ， 开 发 驱动 程序 和 控制 占 迎 辑 。 




















4.10.2 Host Based FTLZR KJ 


Host Based SSD 一 般 的 模式 是 把 内 存 的 读 与 接口 直接 开放 给 驱动 程 
序 ， 这 样 驱 动 程序 就 能 自行 管理 内 存 内 部 资源 。 控 制 器 大 都 采用 可 编程 
逻辑 器 件 FPGA， 功 能 比较 简单 ， 主 要 实现 ECC 纠 错 和 闪存 时 序 控 制 。 


如 图 4-53 所 示 ， 主 机 驱动 直接 管理 内 存 阵列 ， 控 制 器 只 是 起 到 ECC 
纠 错 算 法 和 物理 协议 转换 的 作用 。 








应 用 程序 读 写 接 口 






Fidis 


NAND Flash 阵列 


图 4-53 Host Based FTL 架 构 示意 图 


410.3 ”百度 的 软件 定义 内 存 


在 机 械 便 盘 时 代 ， 硬 盘 的 制造 技术 掌握 在 少数 几 家 大 公司 手 里 ， 用 
户 只 能 购买 。 但 是 进入 SSD 时 代 之 后 ， 人 硬盘 的 制造 门槛 没有 那么 高 了 ， 
简单 来 说 ，SSD 就 是 将 内 存世 片 和 控制 芯片 组 装 起 来 ， 所 以 国内 很 多 有 
技术 实力 的 公司 就 想 开 发 自己 的 SSD， 例 如 华为 、 百 度 等 。 


百度 、 腾 讯 、 阿 里 巴巴 以 及 Google 和 Facebook 等 互联 网 巨头 有 着 数 
量 庞大 的 服务 器 ， 每 家 都 是 十 万 台 级 别 ， 这 注定 了 它们 不 能 从 存储 厂商 
购买 晤 贯 的 服务 器 ， 只 能 自己 研发 廉价 的 服务 器 和 存储 设备 来 建设 数据 
中 心 。 这 个 存储 设备 也 包括 定制 化 的 SSD。 


百度 的 欧阳 剑 团 队 在 国际 著名 的 计算 机 体系 结构 学 术 会 议 
ASPLOS'14 上 发 表 了 一 篇 文章 ， 介 绍 他 们 研发 的 软件 定义 内 存 
SDF (Software Defined Flash) 。 相 比 市 场 上 销售 的 SSD，SDF 主 要 的 特 
点 有 : 

D 没有 垃圾 回收 。SDF 的 使 用 者 使 用 闪存 块 大 小 的 整数 倍 为 单位 
来 写 数 据 〈 比 如 8MB ) ， 所 以 每 个 内 存 块 里 面 不 会 有 垃圾 ， 或 者 整体 都 
是 垃圾 ， 写 之 前 直接 擦 除 就 可 以 了 。 这 样 的 好 处 有 : 

.SSD 内 部 不 用 做 垃圾 回收 ， 读 写 带 宽 得 到 提高 。 

.不 需要 预 留 空间 ， 释 放出 20% 的 额外 空间 。 














图 4-54 ”SDF 板 


2) 没有 闪存 级 RAID。SSD 内 部 其 实 是 内 存 阵列 ， 所 以 为 了 数据 安 





全 性 ， 很 多 企业 级 SSD 会 用 闪存 组 成 RAID 组 ， 用 一 块 或 几 块 闪存 保存 
RAID 数 据 。 但 是 互联 网 公司 的 数据 一 般 都 有 3 个 备份 ， 所 以 不 担心 SSD 
内 部 数据 丢失 ， 因 此 ，RAID 是 没有 必要 的 。 


3) FPGA 作 为 控制 蕊 片 ， 功 能 很 少 : ECC、 坏 块 管理 、 地 址 转换 、 
动态 磨损 平衡 。Virtex-5FPGA 实 现 了 PCIe 接 口 和 DMA，Spartan FPGA 则 
是 闪存 控制 芯片 。 








PCIExS 


hrtex-5 


| Spartan-6 | | Spartan-6 | -6 Spartan-6 


1 通道 五 通道 | 11 通道 11 通道 


Kl4-55 ”SDF 硬 件 架 构图 
4) SSD 内 部 每 个 通道 都 向 用 户 开放 ， 由 用 户 选 择 写 哪 个 通道 。 


/dev/sda /dev/sda0 ~ /dev/sdaN 


SSD SSD SSD 
控制 器 | | 控制 器 | 。 | 控制 器 
闪存 mue] 
通道 0 通道 1 
SDF 


图 4-56 ”SDF 和 传统 SSD 比 较 


5) 软件 接口 层 非常 简单 ， 相 比 传统 的 Linux 存 储 堆栈 ， 省 略 了 文件 
系统 、 块 设备 、IO 调 度 、SATA 协 议 等 ， 用 户 直 接 通 过 IOCTRL (设备 
驱动 程序 中 对 设备 的 MO 通 道 进行 管理 的 函数 ) 来 发 同步 的 写 命令 到 
PCIe 驱 动 ， 如 图 4-57 所 示 。 软 件 延 迟 从 12hs 缩 减 到 2 一 4hs， 这 个 时 间 只 
是 花 在 PCIe 中 断 处 理 上 。 
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图 4-57 SDF 和 传统 SSD IO 栈 对 比 





概 8 





IOCTRL 


PCIe 驱动 





SDF 


SDF 内 部 保存 的 数据 是 百度 自己 的 日 志文 件 系 统 数据 ， 每 个 数据 块 
MB. 


看 得 出 来 ， 百 度 的 这 个 软件 定义 内 存 针对 上 自己 的 应 用 特点 ， 仪 仅 保 
留 了 最 关键 的 功能 ，SSD 设 计 得 非常 精简 ， 市 约 了 大 量 的 资源 ， 同 时 延 


述 也 很 短 。 





FTL 部 分 就 讲 到 这 儿 ， 希 望 读者 看 完 后 有 所 收获 。 读 者 也 可 以 关注 
SSDFans 微 信 公 众 号 和 网 站 www.ssdfans.com ， 获 取 更 多 FTL 和 和 SSD 相关 


知识 。 


第 5 音 PCIe 介绍 


5.1 ”从 PCIe 的 速度 说 起 


现在 ，SSD 已 经 大 跨 步 近 入 PCIe 时 代 。 作 为 SSD 的 一 项 重要 技术 ， 
我 们 有 必要 对 PCIe 有 个 基本 的 了 解 。 

为 什么 SSD 要 用 PCIe 接 口 ? 因为 它 快 ， 比 SATA 快 。 它 究竟 有 多 
快 ? 我 们 首先 从 PCIe 接 口 的 速度 开始 我 们 的 PCIe 之 旅 。 


PCIe 发 展 到 现在 ， 从 PCIe 1.0、PCIe 2.0， 到 现在 的 PCIe 3.0， 速 度 
一 代 比 一 代 快 ， 如 表 5-1 所 示 。 








从 链接 速度 这 一 行 我 们 看 到 x1、x2、x4...... 这 是 什么 意思 ? 
PCIe 连 接 的 通道 数 (Lane) 。 束 像 高 速 公 路 一 样 ， 有 单车 道 、2 车 道 、4 





N 


车 道 的 〈 见 图 5-1) ， 不 过 像 8 车 道 或 者 更 多 车 道 的 公路 不 常见 ， 但 PCIe 
是 可 以 最 多 有 32 个 Lane 的 。 


两 个 设备 之 间 的 PCIe 连 接 ， 叫 作 一 个 Link， 如 图 5-2 所 示 。 








如 图 5-2 所 示 ，A 与 B 之 间 是 个 双 同 连接 ， 车 可 以 从 A 驶 同 B， 同 时 ， 
车 也 可 以 从 B 驶 同 A， 各 行 其 道 。 两 个 PCIe 设 备 之 间 ， 有 专门 的 发 送 和 
接收 通道 ， 数 据 可 以 同时 往 两 个 方 同 传输 ，PClIe Spec 称 这 种 工作 模式 为 
双 单 工 模 式 (Dual-Simplex) ， 可 以 理解 为 全 双 工 模式 。 





Link (1 — 32lane 95 





[5-2 PCIe Link 的 概念 


SATA 是 什么 工作 模式 呢 ? 如 图 5-3 所 示 。 





图 5-3 SATA 工 作 模 式 


和 PCIe 一 样 ，SATA 也 有 独立 的 发 送 和 接收 通道 ， 但 与 PCIe 工 作 模 
式 不 一 样 ， 同 一 时 间 ， 只 有 一 条 通道 可 以 进行 数据 传输 。 也 就 是 说 ， 你 
在 一 条 通道 上 发 送 数据 ， 在 另外 一 条 通道 上 就 不 能 接收 数据 ， 反 之 亦 
然 。 这 种 工作 模式 称 为 半 双 工 模式 。 


PCIe 犹 如 我 们 的 手机 ， 双 方 可 以 同时 讲话 ， 而 SATA 惑 是 对 讲 机 
了 ， 一 个 人 在 说 话 ， 男 外 一 个 人 就 只 能 听 不 能 说 。 


回 到 表 5-1， 表 中 的 带宽 ， 比 如 PCIe3.0x1， 带 宽 为 2GB/s， 是 指 双 向 
带宽 ， 即 读 写 带宽 。 如 有 果 单 指 读 或 者 写 ， 该 值 应 该 减 半 ， 即 1GB/s 的 读 
速度 或 者 写 速度 。 


我 们 来 看 看 表 里 面 的 带宽 是 怎么 算出 来 的 。 


PCIe 是 串 行 总 线 ，PCIel.0 的 线 上 比特 传输 速率 为 2.5Gbps， 物 理 层 
使 用 8/10 编 码 ， 即 8bit 的 数据 ， 实 际 在 物理 线路 上 是 需要 传输 10bit 的 ， 
多 余 的 2bit 用 来 校 验 。 因 此 : 


PCIe1.0x1 的 带宽 = (2.5Gbpsx2 (双向 通道 ) ) /10=0.5GB/s 


这 是 单条 Lane 的 带宽 ， 有 几 条 Lane， 那 么 整个 带宽 计算 就 是 用 
0.5GB/s 乘 以 Lane 的 数目 。 


PCIe2.0 的 线 上 比特 传输 速率 在 PCIel.0 的 基础 上 翻 了 一 倍 ， 为 
5Gbps， 物 理 层 同样 使 用 8/10 编 码 ， 所 以 : 








PCIe2.0x1 的 带宽 = (5Gbpsx2 (双向 通道 ) ) /10-1GB/s 
同样 ， 有 多 少 条 Lane， 带 宽 就 是 1GB/s 乘 以 Lane 的 数目 。 


PCIe3.0 的 线 上 比特 传输 速率 没有 在 PCIe2.0 的 基础 上 翻 倍 ， 不 是 
10Gbps， 而 是 8Gbps， 但 物理 层 使 用 的 是 128/130 编 码 进行 数据 传输 ， 所 
以 : 


PCIe3.0x1 的 带宽 = (8Gbpsx2 (双向 通道 ) 
x (128bit/130bit) ) /8%2GB/s 


同样 ， 有 多 少 条 Lane， 和 带宽 就 是 2GB/s 习 以 Lane 的 数 日 。 


由 于 采用 了 128/130 编 码 ， 每 128bit 的 数据 ， 只 额外 增加 了 2bit 的 开 
销 ， 有 效 数据 传输 比率 增 大 ， 虽 然 线 上 比特 传输 率 没有 翻 倍 ， 但 有 效 数 
据 带 宽 还 是 在 PCIe2.0 的 基础 上 实现 翻 倍 。 


这 里 值得 一 提 的 是 ， 上 面 算出 的 数据 带宽 已 经 考虑 到 8/10 或 者 
128/130 编 码 ， 因 此 ， 大 家 在 算 带宽 的 时 候 ， 没 有 必要 再 考虑 线 上 编码 
的 问题 了 。 


和 SATA 单 通道 不 同 ，PCIe 连 接 可 以 通过 增加 通道 数 扩展 带宽 ， 弹 
性 十 足 。 通 道 数 越 多 ， 速 度 越 快 。 不 过 ， 通 道 数 越 多 ， 成 本 越 高 ， 占 用 
更 多 空间 ， 还 有 就 是 更 耗 电 。 因 此 ， 使 用 多 少 通道 ， 应 该 在 性 能 和 其 他 
因素 之 间 进 行 一 个 综合 考虑 。 单 考虑 性 能 的 话 ，PCIe 最 高 带宽 可 达 
64GB/s， 即 PCIe 3.0x32 对 应 的 带宽 ， 这 是 很 巩 怖 的 一 个 数据 。 不 过 ， 现 
有 的 PCIe SSD 一 般 最 多 使 用 4 通道 ， 如 PCIe3.0x4， 双 向 带宽 为 8GB/s， 
读 或 者 写 带宽 为 4GB/s。 














Intel SSD 750 参数 


PCle3.0 x 4-NVMe 
Intel CH29AE41ABO 


读 写 功 耗 9W/12W 


加 密 支持 N/ 


70GB Wirites per Day for Five Years 


[5-4 Intel PCIe SSD 750 规 格 书 





在 此 ， 顺 便 来 算 算 PCIe3.0x4 理 论 上 最 大 的 4KB IOPS。PCIe3.0x4 理 
论 最 大 读 或 写 的 速度 为 4GB/s， 不 考虑 协议 开销 ， 每 秒 可 以 传输 
4GB/4KB 个 4KB 大 小 的 IO， 该 值 为 1IM， 即 理论 上 最 大 IOPS 为 1000k。 
此 ， 一 个 SSD， 不 管 底层 用 什么 介质 ， 闪 存 还 是 3D XPoint， 接 口 速度 就 
这 么 快 ， 最 大 IOPS 是 不 可 能 超过 这 个 值 的 。 


PCIe 是 从 PCI 发 展 过 来 的 ，PCIe 的 “e” 是 express 的 简称 ， 表 示 “ 快 ”。 
PCIe 怎 么 就 能 比 PCI (或 者 PCI-X) 快 呢 ? 那 是 因为 PCIe 在 物理 传输 上 ， 
跟 PCI 有 着 本 质 的 区 别 : PCI 使 用 并 口传 输 数 据 ， 而 PCIe 使 用 的 是 串口 传 
输 。 我 PCI 并 行 总 线 ， 单 个 时 钟 周 期 可 以 传输 32bit 或 64bit， 怎 么 束 比 不 
了 你 单个 时 钟 周期 传输 1 个 bit 数 据 的 串 行 总 线 呢 ? 


在 实际 时 钟 频率 比较 低 的 情况 下 ， 并 口 因 为 可 以 同时 传输 知 干 比 


特 ， 速 率 确实 比 串 口 快 ， 如 图 5-5 所 示 。 随 着 技术 的 发 展 ， 要 求 数据 传 
和 输 速率 越 来 越 快 ， 要 求 时钟 频 率 也 越 来 越 快 ， 但 是 ， 并 行 总 线 时 钟 频率 
ANZ ABUS BE TIE o 


传输 时 间 





ESEG 


公共 时 钟 


时 钟 深 移 导致 采样 错误 AE 


时 钟 


> 


图 5-5 ”并行 传输 时 序 


在 发 送 冲 ， 数 据 在 茶 个 时 钟 沿 传 出 去 左边 时 钟 第 一 个 上 升 沿 》， 
在 接收 端 ， 数 据 在 下 个 时 钟 沿 〈 石 边 时 钟 第 二 个 上 升 沿 〉 接 收 。 因 此 ， 
要 在 接收 端 能 正确 采集 到 数据 ， 要 求 时 钟 的 周期 必须 大 于 数据 传输 的 时 
间 《〈 从 发 送 端 到 接收 端的 时 间 ，Elight Time) ， 受 限于 数据 传输 时 间 

《该 时 间 还 随 看 数据 线 长 度 的 增加 而 增加 》， 因 此 时 钟 频率 不 能 做 得 太 
高 。 另 外 ， 时 钟 信号 在 线 上 传输 的 时 候 ， 也 会 存在 相位 偏 移 〈Clock 
Skew) ， 影 响 接 收 并 的 数据 采集 。 由 于 采用 并 行 传输 ， 接 收 端 必须 等 
最 慢 的 那个 bit 数 据 到 了 以 后 ， 才 能 锁 住 整个 数据 。 


5.2 ” PCIe 拓扑 结构 


计算 机 网 络 的 拓扑 结构 是 引用 拓扑 学 中 研究 与 大 小 、 形 状 无 关 的 
扩 、 线 关系 的 方法 ， 把 网 络 中 的 计算 机 和 通信 设备 抽象 为 一 个 点 ， 把 传 
P b 由 点 和 线 组 成 的 几何 图 形 就 是 计算 机 网 络 的 拓扑 


计算 机 网 络 主要 的 拓扑 结构 有 总 线 型 拓扑 、 环 形 拓扑 、 树 形 拓 扑 、 
星 形 拓扑 、 混 合 型 拓扑 以 及 网 状 拓扑 。 


PCI 采 用 的 是 总 线 型 拓扑 结构 ， 一 条 PCI 总 线 上 挂 着 若干 个 PCI 终 端 
设备 或 者 PCI 桥 设备 ， 大 家 共享 该 条 PCI 总 线 ， 哪 个 人 想 说 话 ， 必 须 获 得 
总 线 使 用 权 ， 然 后 才能 发 言 。 如 图 5-6 所 示 是 一 个 基于 PCI 的 传统 计算 机 
系统 。 





图 5-6 ”基于 PCI 的 传统 计算 机 系统 


北桥 下 面 的 那 根 PCI 总 线 ， 挂 载 了 以 太 网 设备 、SCSI 设 备 、 南 桥 以 
及 其 他 设备 ， 它 们 共 至 那 条 总 线 ， 某 个 设备 只 有 获得 总 线 使 用 权 才 能 i 
行 数据 传输 。 


而 PCIe 则 采用 树 形 拓扑 结构 ， 一 个 简单 而 又 典型 的 PCIe 拓 扑 结构 如 
图 5-7 所 示 。 





图 5-7 “基于 PCIe 计 算 机 系统 


整个 PCIe 拓 扑 结构 是 一 个 树 形 结构 。Root Complex (RC) 是 树 的 
根 ， 它 为 CPU 代言 ， 与 整个 计算 机 系统 其 他 部 分 通信 ， 比 如 CPU 通过 它 
访问 内 存 ， 通 过 它 访问 PCIe 系 统 中 的 设备 。 


RC 的 内 部 实现 很 复杂 ，PCIe Spec 也 没有 规定 RC 该 做 什么 ， 不 该 做 
什么 。 我 们 也 不 需要 知道 那么 多 ， 只 需 清楚 : 它 一 般 实现 了 一 条 内 部 
PCIe 总 线 (BUS 0) ， 以 及 通过 知 干 个 PCIe bridge， 扩 展 出 一 些 PCIe 
Port， 如 图 5-8 所 示 。 


PCIe Endpoint， 就 是 PCIe 终 站 设备 ， 比 如 PCIe SSD、PCIe 网 卡 等 ， 
这 些 Endpoint 可 以 直接 连 在 RC 上 ， 也 可 以 通过 Switch 连 到 PCIe 总 线 上 。 
Switch 用 于 扩展 链 路 ， 提 供 更 多 的 端口 用 以 连接 Endpoint。 合 USB 打 比 
方 ， 计 算 机 主板 上 提供 的 USB 口 有 限 ， 如 果 你 要 连接 很 多 USB 设 备 ， 比 
如 无 线 网 卡 、 无 线 鼠 标 、USB 摄 像 火 、USB 打 印 机 、U 盘 等 ，USB 口 不 
够 用 ， 我 会 上 网 买 个 USB HUB 用 以 扩展 接口 。 
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图 5-8 Root Complex 内 部 总 线 


Switch 扩展 了 PCIe 端 口 ， 靠 近 RC 的 那个 端口 ， 我 们 称 为 上 游 端 口 
(Upstream Port) ， 而 分 出 来 的 其 他 端口 ， 我 们 称 为 下 游 问 口 
(Downstream Port) 。 一 个 Switch 只 有 一 个 上 游 端 口 ， 可 以 扩展 出 知 干 

个 下 游 端 口 。 下 游 端 口 可 以 直接 连接 Endpoint， 也 可 以 连接 Switch， 扩 

展 出 更 多 的 PCIe 端 口 ， 如 图 5-9 所 示 。 
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图 5-9 PCIe Switch 


对 每 个 Switch 来 说 ， 它 下 面 的 Endpoint 或 者 Switch， 都 是 归 它 
的 。 上 游 下 来 的 数据 ， DLE PEE A 全 它 下 面 哪个 设备 的 ， 
进行 转发 ， 下面 设 备 同 RC 传 数据 ， 也 要 通过 Switch 代为 转发 。 因 此 ， 
Switch 的 作用 就 是 扩展 PCIe 端 口 ， 并 为 挂 在 它 上 面 的 设备 〈Endpoint 或 
者 Switch) 提供 路 由 和 转发 服务 。 


每 个 Switch 内 部 ， 也 是 有 一 根 内 部 PCIe 总 线 的 ， 然 后 通过 各 干 个 
Bridge， 扩 展 出 徊 干 个 下 游 端口 ， 如 图 5-10 所 示 。 














i| PCI-PCI | | PCI-PCI | | PCI-PCI || 
i| Bridge Bridge Bridge |! 





图 5-10 ”Switch 内 部 总 线 结构 
最 后 小 结 一 下 : 


PCIe 采 用 的 是 树 形 拓扑 结构 ，RC 是 树 的 根 或 主干 ， 它 为 CPU 代 
言 ， 与 PCIe 系 统 其 他 部 分 通信 ， 一 般 为 通信 的 发 起 者 。Switch 是 树 村 ， 
树 校 上 有 叶子 (Endpoint) ， 也 可 节 外 生 枝 ，Switch 上 连 Switch， 归 根 
结 底 ， 是 为 了 连接 更 多 的 Endpoint。Switch 为 它 下 面 的 Endpoint 或 Switch 
提供 路 由 转发 服务 。Endpoint 是 树叶 ， 诸 如 SSD、 网 卡 、 显 卡 等 ， 实 现 
某 些 特定 功能 (Function) 。 我 们 还 不 看 到 有 所 滑 的 Bridge; 用 以 将 PCIe 
总 线 转换 成 PCI 总 线 ， 或 者 反 过 来 ， 不 是 我 们 要 讲 的 重点 ， 忽 略 之 。 
PCIe 与 采用 总 线 共 享 式 通信 方式 的 PCI 不 同 ，PCIe 采 用 
(Endpoint to Endpoint) 的 通信 方式 ， 每 个 设备 独 享 通道 珊 宽 ， 速 度 和 
效率 都 比 PCI 好 。 





需要 指出 的 是 ， 虽 然 PCIe 采 用 点 到 点 通信 ， 即 理论 上 任何 两 个 
Endpoint 都 可 以 直接 通信 ， 但 实际 中 很 少 这 样 做 ， 因 为 两 个 不 同 设备 的 
数据 格式 不 一 样 ， 除 非 这 两 个 设备 是 同一 个 厂商 的 。 通 常 都 是 Endpoint 
与 RC 通信 ， 或 者 Endpoint 通 过 RC 与 男 外 一 个 Endpoint 通 信 。 











5.3 ”PCIe 分 层 结构 


绝 大 多 数 的 总 线 或 者 接口 ， 都 是 采用 分 层 实现 的 。PCIe 也 不 例外 ， 
它 的 层次 结构 如 图 5-11 所 示 。 











图 5-11 PCIe 分 层 结 构 





PCIe 定 义 了 下 三 层 : 事务 层 〈Transaction Layer) 、 数 据 链 路 层 
(Data Link Layer) 和 物理 层 (Physical Layer， 包 括 逻 辑 子 模块 和 电气 
子 模块 ) ， 每 层 职 能 是 不 同 的 ， 但 下 层 总 是 为 上 层 服务 的 。 分 层 设计 的 
一 个 好 处 是 ， 如 果 层 次 分 得 够 好 ， 接 口 版 本 升级 时 ， 硬 件 设 计 可 能 只 需 
要 改动 某 一 层 ， 其 他 层 可 以 保持 不 动 。 


PCle 传 输 的 数据 从 上 到 下 ， 都 是 以 数据 包 (Packet) 的 形式 传输 
的 ， 每 层 数据 包 都 是 有 其 固定 的 格式 。 


事务 层 的 主要 职责 是 创建 〈 发 送 ) 或 者 解析 接收) 
TLP (Transaction Layer Packet) 、 流 量 控制 、QoS、 事 务 排序 等 。 


数据 链 路 层 的 主要 职责 是 创建 “发 送 ) 或 者 解析 (接收) 








DLLP (Data Link Layer Packet) 、Ack/Nak 协 议 ( 链 路 层 检 错 和 纠 
£D 、 流 控 、 电 源 管理 等 。 


物理 层 的 主要 职责 是 处 理 所 有 的 Packet 数 据 物理 传输 ， 发 送 端 数据 
分 发 到 各 个 Lane 传 输 〈Stripe) ， 接 收 端 把 各 个 Lane 上 的 数据 汇总 起 来 
(De-stripe) ， 每 个 Lane 上 加 扰 (Scramble， 目 的 是 让 0 和 1 分 布 均匀 ， 
去 除 信道 的 电磁 干扰 EMI)〉 和 去 扰 CDe-scramble) ， 以 及 8/10 或 者 
128/130 编 码 解码 等 。 


这 里 先 贴 个 这 三 层 的 细节 图 〈 见 图 5-12) 。 
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图 5-12 PCIe 各 层次 细节 图 


数据 从 上 到 下 ， 一 层 层 打 包 ， 上 层 打包 完 的 数据 ， 作 为 下 层 的 原始 
7s. PRATER. WÜBDACEOKHR B. TIT AKWUNA. F 1T 


套 。 


Data 是 事务 层 上 层 〈 诸 如 命令 层 、NVMe 层 ) 给 的 数据 ， 事 务 层 给 
它 头 上 加 个 Header， 人 然后 尾巴 上 再 加 个 CRC 校 验 ， 就 构成 了 一 个 TLP。 
这 个 TLP 下 传 到 数据 链 路 层 ， 又 被 数据 链 路 层 在 头 上 加 了 个 包 序列 号 
(Sequence Number，SN) ， 尾 巴 上 再 加 个 CRC 校 验 ， 然 后 下 传 到 物理 
层 。 物 理 层 为 其 头 上 加 个 Start， 尾 巴 上 加 个 End 符 号 ， 把 这 些 数 据 分 派 
到 各 个 Lane 上 ， 然 后 在 每 个 Lane 上 加 扰 码 ， 经 8/10 或 128/130 编 码 ， 最 后 
通过 物理 传输 介质 传输 给 接收 方 ， 如 图 5-13 所 示 。 


Stat sn Me Data Payload End 





数据 链 路 层 创 建 (2) 
物理 层 创建 (3 ) 
图 5-13 ”发 送 方 打包 TLP 过 程 


接收 方 物理 层 是 最 先 接收 到 这 些 数据 的 ， 拘 头 〈Start) 去 尾 
(End) ， 然 后 交 由 上 层 。 在 数据 链 路 层 ， 校 验 序列 号 和 LCRC， 如 果 
没 问 题 ， 剥 挥 序列 号 和 LCRC， 人 往事 务 层 走 ， 如 果 校 验 出 兰 ， 通 知 对 方 
重 传 。 在 事务 层 ， 校 验 ECRC， 有 错 ， 数 据 抛弃 ;， 没 错 ， 去 掉 ECRC， 
获得 数据 。 整 个 过 程 犹如 脱衣 睡觉 ， 外 套 脱 了 ， 衬 衫 脱 了 ， 内 衣 也 脱 
了 ， 光 溜溜 钻 进 被 窝 ， 如 图 5-14 所 示 。 
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图 5-14 ”接收 方 解 包 TLP 过 程 


和 PCI 数 据 裸 奔 不 同 ，PCIe 的 数据 是 穿 衣服 的 。PCIe 数 据 以 Packet 
的 形式 传输 ， 比 起 PCI 冷 冰冰 的 数据 ，PCIe 的 数据 是 鲜 活 有 生命 的 。 


每 个 Endpoint 都 需要 实现 这 三 层 ， 每 个 Switch 的 Port 也 需要 实现 这 三 
层 〈 见 图 5-15) 。 


如 图 5-15 所 示 ， 如 果 RC 要 与 EP1 通 信 ， 中 间 要 经 历 怎 样 的 一 个 过 








如 果 把 前 述 的 数据 发 送 和 接收 过 程 叫 作 穿 衣 和 脱衣 ， 那 么 ，RC 与 
EP1 数 据 传 输 过 程 中 ， 则 存在 好 几 次 这 样 罕 衣 脱 衣 的 过 程 : RC 帮 数据 罕 
好 衣服 ， 发 送 给 Switch 的 上 游 端 口 ，A 为 了 知道 该 笔 数据 发 送 给 谁 ， 就 
需要 脱 掉 该 数据 的 衣服 ， 找 到 里 面 的 地 址 信息 。 衣 服 脱光 后 ，Switch 有 发 
现 它 是 往 EP1 的 ， 叉 帮 它 换 了 里 新 衣服 ， 友 送 给 端口 B。B 又 不 嫌 肤 烦 的 
脱 掉 它 的 衣服 ， 换 上 新 衣服 ， 最 后 及 送 给 EP1， 如 图 5-16 所 示 。 
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图 5-15 RC、Switch 和 EP 都 要 实现 三 层 
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图 5-16 ”RC 和 EP 通信 
Switch 的 主要 功能 是 转发 数据 ， 为 什么 还 需要 实现 事务 层 ? Switch 





必须 实现 这 三 层 ， 因 为 数据 的 目的 地 信息 是 在 TLP 中 的 ， 如 果 不 实现 这 
一 层 ， 就 无 法 知道 目的 地 址 ， 也 就 无 法 实现 数据 寻 址 路 由 。 


5.4 PCIe TLP 类 型 


主机 与 PCIe 设 备 之 间 ， 或 者 PCIe 设 备 与 设备 之 间 ， 数 据 传输 都 是 以 
Packet 形 式 进 行 的 。 事 务 层 根据 上 层 〈( 软 件 层 或 者 应 用 层 〉 请 求 
(Request) 的 类 型 、 目 的 地 址 和 其 他 相关 属性 ， 把 这 些 请 求 打包 ， 产 
生 TLP (Transaction Layer Packet， 事 务 层 数据 包 ) 。 然 后 这 些 TLP 往 
下 ， 经 历数 据 链 路 层 、 物 理 层 ， 最 终 到 达 目 标 设备 。 


根据 软件 层 的 不 同 请 求 ， 事 务 层 产生 四 种 不 同 的 TLP 请 求 : 





Memory; 
TO; 
Configuration; 


Message. 








前 三 种 分 别 用 于 访问 内 存 空 间 、IO 空 间 、 配 置 空间 ， 这 三 种 请 求 在 
PCI 或 者 PCI-X 时 代 就 有 了 ， 最 后 的 Message 请 求 是 PCIe 新 加 的 。 在 PCI 
或 者 PCI-X 时 代 ， 像 中 断 、 错 误 以 及 电源 管理 相关 信息 ， 都 是 通过 边 带 
信号 (Sideband Signal) 进行 传输 的 ， 但 PCIe 和 干掉 了 这 些 边 融 信号 线 ， 
所 有 的 通信 都 是 走 带 内 信号 ， 即 通过 Packet 传 输 ， 因 此 ， 过 去 一 些 由 边 
带 信 号 线 传输 的 数据 ， 比 如 中 断 信 息 、 错 误 信 息 等 ， 现 在 就 交 由 
Message 来 传输 了 。 


我 们 知道 ， 一 个 设备 的 物理 空间 ， 可 以 通过 内 存 映射 (Memory 
Map) 的 方式 映射 到 主机 的 主 存 ， 有 些 空间 还 可 以 映射 到 主机 的 IO 空间 
《如 有 果 主 机 存在 IO 空间 的 话 ) 。 但 新 的 PCIe 设 备 〈 区 别 于 Legacy PCIe 
设备 ) 只 文 持 内 存 上 映射， 之 所 以 还 存在 访问 IO 空间 的 TLP， 完 全 是 为 了 
照顾 那些 老 设备 。 以 后 IO 映射 的 方式 会 逐渐 取消 ， 为 减轻 学 习 压 力 ， 我 
们 以 后 看 到 IO 相关 的 东西 ， 大 可 忽略 掉 。 


所 有 配置 空间 (Configuration) 的 访问 ， 都 是 主机 发 起 的 ， 确 切 地 
说 是 RC 发 起 的 ， 往 往 只 在 上 电 枚 举 和 配置 阶段 会 发 起 配置 空间 的 访 
问 ， 这 样 的 TLP 很 重要 ， 但 不 是 常态 ，Message 也 是 一 样 ， 只 有 在 有 中 
断 或 者 有 错误 等 情况 下 ， 才 会 有 Message TLP， 这 是 非 主流 的 。PCIe 线 











上 主流 传输 的 是 Memory 访 问 相 关 的 TLP， 主 机 与 设备 或 者 设备 与 设备 
之 间 ， 数 据 都 是 在 彼此 的 Memory 之 间 〈 抛 掉 IJO) 交互 ， 因 此 ， 这 种 
TLP 是 我 们 最 常见 的 。 


这 四 种 请 求 ， 如 果 需 要 对 方 响应 的 ， 我 们 称 之 为 Non-Posted TLP; 
如 果 不 指望 对 方 给 响应 的 ， 我 们 称 之 为 Posted TLP。Post， 有 “邮政 ”的 
意思 ， 我 们 只 管 把 信 投 到 邮箱 ， 能 不 能 到 达 对 方 ， 就 取决 于 邮递 员 了 。 
Posted TLP， 就 是 不 指望 对 方 回复 〈 信 和 能 不 能 收 到 都 是 个 问题 〉; Non- 
Posted TLP， 就 是 要 求 对 方 务必 回复 。 


哪些 TLP 是 Posted， 哪 些 又 是 Non-Posted 的 呢 ? 像 Configuration 和 IO 
访问 ， 无 论 读 写 ， 都 是 Non-Posted 的 ， 这 样 的 请 求 必须 得 到 设备 的 啊 
应 ; Message TLP 是 Posted 的 ; Memory Read 必 须 是 Non-Posted 的 ， 我 读 
你 数据 ， 你 不 返回 数据 《返回 数据 也 是 啊 应 ) ， 那 肯定 不 行 ， 所 以 
Memory Read 必 须 得 到 啊 应 ， 而 Memory Write 是 Posted 的 ， 我 数据 传 给 
你 ， 无 须 回复 ， 这 样 主机 或 者 设备 可 以 不 等 对 方 回复 ， 趁 早 把 下 一 笔 数 
据 写 下 去 ， 这 样 一 定 程度 上 提高 了 写 的 性 能 。 有 人 会 担心 如 果 没 有 得 到 
对 方 的 啊 应 ， 发 送 者 就 没有 办 法 知道 数据 究竟 有 没有 成 功 写 入 ， 就 有 丢 
数据 的 风险 。 虽 然 这 个 风险 存在 《概率 很 小 ) ， 但 数据 链 路 层 提供 了 
ACK/NAK 机 制 ， 一 定 程度 上 能 保证 TLP 正 确 交 互 ， 因 此 能 很 大 程度 上 
减 小 了 数据 写 失 败 的 可 能 。TLP 的 请 求 类 型 如 表 5-2 所 示 。 


表 5-2 ”TLP 请 求 类 型 











请 求 类 型 Non-Posted / Posted 

Memory Read Non-Posted 
Memory Write Posted 

Memory Read Lock Non-Posted 
IO Read Non-Posted 
IO Write Non-Posted 
Configuration Read (Type 0 和 Type 1) Non-Posted 
Configuration Write (Type 0 和 Type 1) Non-Posted 
Message Posted 





所 以 ， 只 要 记 住 只 有 Memory Write 和 Message 两 种 TLP 是 Posted 的 就 
可 以 了 ， 其 他 都 是 Non-Posted 的 。 


Memory Read Lock 是 历史 的 遗留 物 ，Native PCIe 设 备 已 经 抛弃 了 











它 ， 它 存在 的 意义 完全 是 为 了 兼容 Legacy PCIe 设 备 。 和 IO 一 样 ， 我 们 
也 可 以 忽略 。 能 不 看 的 就 不 看 ，PCIe 内 容 本 来 就 多 ， 不 要 被 这 些 过 时 没 
用 的 东西 挡住 我 们 学 习 的 道路 。 


在 Configuration 一 栏 ， 我 们 看 到 Type 0 和 Type 1。 在 之 前 的 拓扑 结 
构 中 ， 我 们 看 到 除了 Endpoint 之 外 ， 还 有 Switch， 他 们 都 是 PCIe 设 备 ， 
但 配置 种 类 不 同 ， 因 此 用 Type 0 和 Type 1 区 分 ， 如 表 5-3 所 示 。 


表 5-3 Native PCIe TLP 类 型 


请 求 类 型 Non-Posted / Posted 
Memory Read Non-Posted 
Memory Write Posted 
Configuration Read (Type 0 和 Type 1) Non-Posted 
Configuration Write (Type 0 和 Type 1) Non-Posted 
Message Posted 


X$, Request TLP 是 不 是 清 碍 点 ? 





对 Non-Posted 的 Request， 是 一 定 需要 对 方 啊 应 的 ， 对 方 需要 通过 返 
回 一 个 Completion TLP 来 作为 响应 。 对 Read Request 来 说 ， 啊 应 者 通过 
Completion TLP 返 回 请 求 者 所 需 的 数据 ， 这 种 Completion TLP 包 含有 效 
数据 ;对 Write Request (MÆ K A Configuration Write 了 ) 来 说 ， 啊 应 者 
通过 Completion TLP 告 诉 请 求 者 执行 状态 ， 这 样 的 Completion TLP 不 含 
有 效 数 据 。 


因此 ，PCIe 里 面 所 有 的 TLP=Request TLP+Completion TLP。 


表 5-4 Native PCIe 请 求 和 响应 TLP 类 型 


TLP 数据 包 类 型 缩写 

Memory Read MRd 

Memory Write MWr 
Configuration Read (Type 0 1 Type 1) CfgRd0, CfgRdl 
Configuration Write ( Type 0 和 Type 1) CfgWr0, CfgWrl 
Message Request with Data MsgD 

Message Request without Data Msg 

Completion with Data CplD 


Completion without Data Cpl 


看 个 Memory Read 的 例子 ， 如 图 5-17 所 示 。 


例子 中 ，PCIe 设 备 C 想 读 主机 内 存 的 数据 ， 因 此 ， 它 在 事务 层 上 生 
成 一 个 Memory Read TLP， 该 MRd 一 路 向 上 ， 到 达 RC。RC 收 到 该 
Request， 就 到 内 存 中 取 PCIe 设 备 C 所 需 的 数据 ，RC 通 过 Completion with 
Data TLP (CplD) 返回 数据 ， 原 路 返回 ， 直 到 PCIe 设 备 C。 







Root Complex 


cpp A] | [] risa — 
1) PCIe 设备 C 发 起 读 内 存 请 求 
MRd TLP; 
) RC 接收 到 该 请 求 ， 到 内 存 中 
获取 所 需 数 据 ; 
cpiD Ji | [|f mra 3) RC 把 从 内 存 中 获得 的 数据 通 
PCle 设备 B $ Pcie 设备 过 Cp ID TLP 返回 给 设备 C; 
4) PCIe 设备 C 接收 Cp ID TLP, 


PCle 设 备 A 
Switch 


获得 所 需 数据 


图 5-17 MemoryRead 示 例 


一 个 TLP 最 多 只 能 携带 4KB 有 效 数 据 ， 因 此 ， 上 例 中 ， 如 果 PCIe 设 
备 C 需 要 读 16KB 的 数据 ， 则 RC 必 须 返 回 4 个 CplD 给 PCIe 设 备 C。 注 意 ， 
PCIe 设 备 C 只 需 发 1 个 MRd 就 可 以 了 。 


再 看 个 Memory Write 的 例子 ， 如 图 5-18 所 示 。 


Root Complex 


1) RC 想 往 PCIe 设备 B 上 写 和 人 数 
据 ， 于 是 发 起 MWr TLP; 

2) PCIe iz f$ B 接收 到 MWr TLP, 
获得 RC 写 入 的 数据 





PCle 设备 B PCle 设 备 C 
图 5-18 ” ”MemoryWrite 示 例 


该 例 中 ， 主 机 想 往 PCIe 设 备 B 中 写 入 数据 ， 因 此 RC 在 其 事务 层 生 成 
J —^ Memory Write TLP〈 要 写 的 数据 在 该 TLP 中 ) ， 通 过 Switch 直到 
目的 地 。 前 面 说 过 Memory Write TLP 是 Posted 的 ， 因 此 ，PCIe 设 备 B 收 
到 数据 后 ， 不 需要 返回 Completion TLP (如果 这 时 返回 Completion 
TLP, KME E) o 


同样 的 ， 由 于 一 个 TLP 只 能 携带 4KB 数 据 ， 因 此 主机 想 往 PCIe 设 备 
B 上 写 入 16KB 数 据 ，RC 必 须发 送 4 个 MWr TLP. 





5.5 PCIe TLP 结 构 


无 论 Request TLP， 还 是 作为 回应 的 Completion TLP， 它 们 的 模样 都 
差不多 ， 如 图 5-19 所 示 。 


Transaction Layer Packet (TLP) 





Data Payload ECRC 


图 5-19 ”TLP 数 据 格式 


TLP 主 要 由 三 部 分 组 成 : Header、Data (可 选 ， 取 决 具体 TLP 类 
型 ) 和 ECRC《〈 可 选 ) 。TLP 都 是 始 于 发 送 端的 事务 层 〈Transaction 
Layer) ， 终 于 接收 端的 事务 层 。 


每 个 ITLP 都 有 一 个 Header， 跟 动物 一 样 ， 没 有 头 就 活 不 了 ， 上 所 以 
TLP 可 以 没 手 没 脚 ， 但 不 能 没有 头 。 事 务 层 根据 上 层 请 求 内 容 ， 生 成 
TLP Header。Header 内 容 包 括 发 送 者 的 相关 信息 、 目 标 地 址 (该 TLP 要 
发 给 谁 )、TLP 类 型 (诸如 前 面 提 到 的 Memory Read. Memory 
Write) 、 数 据 长 上 度 〈 如 果 有 的 话 ) 等 。 


Data Payload 域 ， 用 以 放 有 效 载 集 数 据 。 该 域 不 是 必需 的 ， 因 为 并 
不 是 每 个 TLP 都 必须 携带 数据 ， 比 如 Memory Read TLP， 它 只 是 一 个 请 
求 ， 数 据 是 由 目标 设备 通过 Completion TLP 返 回 的 。 后 面 我 们 会 整理 哪 
些 TLP 需 要 携带 数据 ， 哪 些 TLP 不 带 数 据 。 前 面 也 提 到 ， 一 个 TLP 最 大 
载重 是 4KB， 数 据 长 度 大 于 4KB 的 话 ， 就 需要 分 几 个 TLP 传 输 。 


ECRC (End to End CRC) 域 ， 它 对 之 前 的 Header 和 Data (如 果 有 的 
WD 生成 一 个 CRC， 在 接收 问 根 据 收 到 的 TLP 重 新 生成 Header 和 
Data《〈 如 果 有 的 话 ) 的 CRC， 与 收 到 的 CRC 比 较 ， 一 样 则 说 明 数 据 在 传 
输 过 程 中 没有 出 错 ， 否 则 就 有 错 。 它 也 是 可 选 的 ， 可 以 设置 不 加 CRC。 


Data 域 和 CRC 域 没有 什么 好 说 的 ， 有 人 花头 的 是 Header 域 ， 我 们 要 深 
入 其 中 看 看 。 


一 个 Header 大 小 可 以 是 3DW， 也 可 以 是 4DW。 以 4DW 的 Header 为 














例 ，TLP 的 Header 如 下 所 示 〈 见 图 5-20) 。 
























































+0 $l +2 +3 
LM 0|7 4|3 0|7 2 ilo 7 | 4 s [4|s|2|1]o 
Byte 4 Bytes 4-7( 跟 具体 TLP 相关 ) Last DW BE| 1st DW BE 


Byte 8 Bytes 8-11 ( 跟 具 体 TLP 相关 ) 
Byte 12 Bytes 12-15 ( 跟 具体 TLP 相关 ) 


5-20 ”TLP 的 Header 格 式 


深 色 区 域 为 所 有 TLP Header 公 共 部 分 ， 所 有 Header 都 有 这 些 ， 其 他 
则 跟 具 体 的 TLP 相 关 。 


稍微 解释 一 下 : 


:Fmt: Format， 表 明 该 TLP 是 否 带 有 数据 ，Header 是 3DW 还 是 
4DW. 





Type: TLP 类 型 ， 上 一 节 提 到 的 ， 包 括 Memory Read. Memory 
Write, Configuration Read, Configuration Write、Message 和 Completion 


H 
等 。 


:R: Reserved， 等 于 0。 


-TC: Traffic Class，TLP 也 分 三 六 九 等 ， 优 先 级 高 的 先 得 到 服务 。 
TC: 3bit， 说 明 可 以 分 为 8 个 等 级 ，0~ 一 7，TC 默 认 是 0， 数 字 越 大 ， 优 先 
级 越 高 。 


-Attr: Attrbiute， 属 性 ， 前 后 共 三 个 bit。 





"IH: TLP Processing Hints. 


TD: TLP Digest， 之 前 说 ECRC 可 选 ， 如 果 这 个 bit 置 起 来 ， 说 明 该 
TLP 包 含 ECRC， 接 收 端 应 该 做 CRC 校 验 。 


:EP: Poisoned Data, “有毒 ” 的 数据 ， 远 离 。 


"AT: Address Type， 地 址 种 类 。 


.Length: Payload 数 据 长 度 ，10 个 bit， 最 大 为 1024， 单 位 为 DW， 所 
以 TLP 最 大 数据 长 度 是 4KB; 该 长 度 总 是 DW 的 整数 倍 ， 如 果 TLP 的 数据 
不 是 DW 的 整数 倍 (不 是 4Byte 的 整数 倍 ) ， 则 需要 用 到 Last DW BE 和 
1st DW BE 这 两 个 域 。 


到 目前 为 止 ， 对 于 Header， 我 们 只 需 知 道 它 大 概 有 什么 内 容 ， 没 有 
必要 记 住 每 个 域 是 什么 。 


这 里 重点 讲 讲 FEmt 和 Type， 看 看 不 同 TLP〈 这 里 所 列 为 精简 版 的 ， 
仅 为 Native PCIe 设 备 所 支持 的 TLP) 的 FEmt 和 Type 应 该 怎样 编码 〈 见 表 5- 
5) 。 








表 5-5 ”TLP 格 式 和 类 型 域 编码 
TLP 说 明 


000=3DW， 不 带 数据 Memory Read 不 市 数据 ， 其 Header 
Memory Read Request d x 0 0000 , 3 
001=4DW， 不 带 数据 大 小 为 3DW 或 4DW 
010=3DW， 带 数据 Memory Write 市 数据 ， 上 其 Header 大 
Memory Write Request : E A d 0 0000 ' M a j 
011=4DW， 带 数据 小 为 3DW 或 4DW 


zd iX Endpoint 的 Configuration, 不 人 带 
Configuration Type 0 Read Request | 000=3DW， 不 带 数 据 | 00100 |, 
9 YP 3 TS ZU. Header 总 是 3DW 


—— ^j Endpoint 的 Configuration, “ii 数 
Configuration Type 0 Write Request | 010=3DW， 人 带 数据 00100 |,, i E a " 
JH. Header 总 是 3DW 


i Switch 的 Configuration, ^ ijr ZX 
Configuration Type 1 Read Request | 000=3DW， 不 带 数据 | 00101 |,, EE Wo 
JH. Header 总 是 3DW 


1 iaa pes Ej Switch 的 Configuration, jr X dli, 
Configuration Type 1 Write Request | 010-3DW, i Zidli 0 0101 Age *" à ilios: 
Header zE 3DW 











Message Request ， 不 带 数 据 Message 的 Header 总 是 4DW 
Message Reduest with Data 011 2 4ADW, aif Zl Message 的 Header 总 是 4DW 


Completion 000=3DW， 不 带 数据 | 0 1010 Completion 的 Header 总 是 3DW 
Completion with Data 带 数 据 0 1010 Completion 的 Header 总 是 3DW 





如 表 5-5 所 示 ，Configuration 和 Completion 的 TLP (EACTT3EBJTLPO 
的 Header 大 小 总 是 3 字 节 ; Message TLP 的 Header 总 是 4 字 节 。 而 Memory 
相关 TLP 的 Header 取 决 于 地 址 空间 的 大 小 ， 地 址 空间 小 于 4GB 的 ， 
Header 大 小 为 3DW; 大 于 4GB 的 ，Header 大 小 则 为 4DW。 


上 面 介 绍 了 几 个 TLP Header 的 通用 部 分 ， 下 面 分 别 介 绍 具体 TLP 的 


Header. 
1.Memory TLP 


有 两 个 重要 的 内 容 在 前 面 没 有 提 到 |， 那 就 是 TLP 的 源 和 目标 。 即 该 
TLP 是 哪里 产生 的 ， 它 要 到 哪里 去 ， 这 些 信息 都 是 包含 在 Header 里 面 
的 。 因 为 不 同 的 TLP 类 型 ， 寻 址 方式 不 同 ， 因 此 要 绪 合 具体 TLP 来 看 。 


4DW Memory Request Header 


lisa 











*0 +2 +3 系统 内 存 地 址 映射 
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0 7 





0|7 
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Fmt At = = 
ue Type T€ Attr | AT Length 
0x1 tr 
Last DW lst DW 





3DW Memory Request Header 
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eal 3 ee a 
Fmt At TIT|E ' 
Last DW | 1st DW 0 
“Adaaes . | 


Byte 8 
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图 5-21 Memory TLP 的 Header 


对 一 个 PCIe 设 备 来 说 ， 它 开放 给 主机 访问 的 设备 空间 首先 会 映射 到 
主机 的 内 存 空 间 ， 主 机 如 果 想 访问 设备 的 某 个 空间 ，TLP Header 当 中 的 
地 址 应 该 设置 为 该 访问 空间 在 主机 内 存 的 映射 地 址 。 如 有 果 主 机 内 存 空间 
小 于 4GB， 则 Memory 读 写 TLP 的 Header 大 小 为 3DW; 大 于 4GB， 则 为 
4DW。 对 4GB 内 存 空间 ，32bit 的 地 址 用 1DW 就 可 以 表示 ， 该 地 址 位 于 
Byte8-11; 而 4GB 以 上 的 内 存 空间 ， 需 要 用 2DW 表 示 地 址 ， 该 地 址 位 于 
Byte8-15。 





该 TLP 经 过 Switch 的 时 候 ，Switch 会 根据 地 址 信息 ， 把 该 TLP 转 发 到 
目标 设备 。 之 所 以 能 唯一 地 找到 目标 设备 ， 是 因为 不 同 的 Endpoint 设 备 
空间 会 映射 到 主机 内 存 空 间 的 不 同位 置 。 


关于 TLP 路 由 ， 后 文 还 会 详细 介 





Memory TLP 的 目标 是 通过 内 存 地 址 告知 的 ， 而 源 则 是 通 
过 “Requester ID” 告 知 的 。 每 个 设备 在 PCIe 系 统 中 都 有 唯一 的 ID， 该 ID 
由 总 线 (Bus) 、 设 备 、 功 能 《Function) 三 者 唯一 确定 。 这 
个 后 面 也 会 专门 讲 ， 这 里 只 需 知道 一 个 PCIe 组 成 有 唯一 的 一 个 ID， 不 管 
是 RC、Switch 还 XR Endpoint. 


2.Configuration TLP 


Endpoint 和 Switch 的 配置 (Configuration) 格式 不 一 样 ， 分 别 由 Type 
0 和 Type 1 来 表示 。 配 置 可 以 认为 是 一 个 Endpoint 或 者 Switch 的 标准 空 
间 ， 这 段 空间 在 初始 化 时 需要 上 映射 到 主机 的 内 存 空间 。 与 设备 的 其 他 空 
间 不 同 ， 该 空间 是 标准 化 的 ， 即 不 管 是 哪个 广 家 生产 的 设备 ， 都 需要 有 
这 上段 空间 ， 而 且 哪 个 地 方 放 什么 东西 ， 都 是 协议 规定 好 的 ， 主 机 按 协 议 
访问 这 部 分 空间 。 主 机 软件 访问 PCIe 设 备 的 配置 空间 ，RC 会 生成 
Configuration TLP 与 Switch 或 EP 交 互 。 





如 表 5-22 所 示 是 访问 Endpoint 的 配置 空间 的 TLP Header (Type 
0) 。 


*1 i; 



































|o 7 


Bvte 0 Fmt Type TC Ia HI T|E| Attr | AT Length 
i 0x0 0010 x 000 O0|D|P| 00 00 0000000001 


| --X e DW BE ka = 


Byte 4 Requester ID agea 000 


1 
Device Func Ext Reg ' Register 
g | g 


Function Number with ARI Number | Number 


Byte 8 Bus Number 





图 5-22 Type OConfiguration TLPH* Header 


Bus Number+Device+Function 就 唯一 决定 了 目标 设备 ， Ext Reg 
Number+Register Number 相 当 于 配置 空间 的 偏 移 。 找 到 了 设备 ， 然 后 指 
定 了 配置 空间 的 偏 移 ， 就 能 找到 具体 想 访 问 的 配置 空间 的 某 个 位 置 〈 寄 
存 器 ) 


3.Message TLP 
Message TLP 用 于 传输 中 断 、 错 误 、 电 源 管 理 等 信息 ， 取 代 PCI 时 代 


的 边 带 信号 传输 。Message TLP 的 Header 大 小 总 是 4DW， 如 图 5-23 所 
Ze 


Message Code 指 定 该 Message 的 类 型 ， 有 具体 如 下 图 5-24 所 示 。 
不 同 的 Message Code， 最 后 两 个 DW 的 意义 也 不 同 ， 这 里 不 再 展 


o 


4.Completion TLP 


^H Non-Posted Request TLP, 7] Completion TLP， 有 因 才 有 果 。 前 
面 看 到 ，Requester 的 TLP 当 中 都 有 Requester ID 和 Tag， 来 告知 接收 者 、 
发 起 者 是 谁 。 那 么 啊 应 者 的 目标 地 址 就 很 简单 ， 照 抄 发 起 者 的 源 地 址 束 
可 以 了 。Completion TLP 的 Header 如 图 5-25 所 示 。 


+2 +3 


?|s| s] Ts] oli]o 


+1 
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;| 








Message 
Code 


Bytes 8-11 (IR Message code 相关 ) 


Bytes 12-15 ( 跟 Message code 相关 ) 


图 5-23 Message TLPI Header 


Requester ID 


Fmt Type At Pa 5 : Attr | AT Length 
0x1 lOrrr 00 00 





Message Code [7:0] Byte 7 Bit 7:0 | 这 个 域 表示 发 送 message 的 类 型 


0000 0000b = Unlock Message 

0001 0000b = Lat. Tolerance Reporting 
0001 0010b = Optimized Buffer Flush/Fill 
0001 xxxxb = Power Mgt. Message 


0010 Oxxxb = INTx Message 

0011 00xxb = Error Message 

0100 xxxxb = Ignored Messages 

0101 0000b = Set Slot Power Message 
0111 111xb = Vendor-Defined Messages 





图 5-24 ”Messagecode 域 解释 


32 


+0 +1 +3 


7|6 4|3|2|1|o ?|s 4|3 1|0 7| 4|3 1|o 7 [e| s [4| s | 2 |1 |o 
EE i 

| 
Byte 4 Completer ID . C Byte Count 

Status M 
ses OOO Remeem | me [R[ eweAdes | 
[5-25 Completion TLP 的 Header 

Completion TLP 一 方面 ， 可 以 返回 请 求 者 的 数据 ， 比 如 作为 Memory 

或 Configuration Read 的 啊 应 ; 另 一 方面 ， 还 可 以 返回 该 事务 


(Transaction) 的 状态 。 因 此， 在 Completion TLP 的 Header 中 有 一 个 
Completion Status， 用 以 返回 事务 状态 ( 见 图 5-26)〉。 








5 3 2 5 2 


















































Compl. Status [2:0] Byte 6 Bit7:5 | These bits indicate status for this Com- 
(Completion Status pletion. 
Code) 000b = Successful Completion (SC) 


001b = Unsupported Request (UR) 
010b = Config Req Retry Status (CRS) 
100b = Completer abort (CA) 


图 5-26 Completion Status Code 


5.6 PCIe 配置 和 地 址 空间 


每 个 PCIe 设 备 都 有 这 样 一 段 空 间 ， 主 机 软件 可 以 通过 读 取 筷 获 得 该 
设备 的 一 些 信息 ， 也 可 以 通过 它 来 配置 该 设备 ， 这 段 空间 就 称 为 PCIe 的 
配置 空间 。 不 同 于 每 个 设备 的 其 他 空间 ，PCIe 设 备 的 配置 空间 是 协议 规 
定好 的 ， 哪 个 地 方 收 什么 内 容 ， 都 是 有 定义 的 。PCI 或 者 PCI-X 时 代 就 有 
配置 空间 的 概念 ， 具 体 如 图 5-27 所 示 。 


整个 配置 空间 就 是 一 系列 寄存 器 的 集合 ， 由 两 部 分 组 成 : 64B 的 
Header 和 192B 的 Capability 数 据 结构 。 


进入 PCIe 时 代 ，PCIe 能 耐 更 大 ，192B 不 足以 罗列 它 的 绝活 。 为 了 保 
持 后 向 兼容 ， 又 要 不 把 绝活 落下 ， 怎 么 办 ? 很 简单 ， 扩 展 后 者 的 空间 ， 
把 整个 配置 空间 由 256B 扩 展 成 4KB， 前 面 256B 保 持 不 变 〈 见 图 5-28) 。 








64-byte 
PCI 配置 
空间 的 


Header 





图 5-27 ”PCI 设 备 的 256B 配 置 空间 


64-byte 
PCI 配置 空间 的 
Header 


z IER 
“Cl 


HS: SEHE SALUD 


E 


3840-byte 
PCle 扩展 配置 
寄存 器 空间 





图 5-28 PCIe 设备 的 4KB 配 置 空间 


PCIe 有 什么 能 耐 (Capability) 我 们 不 看 ， 先 看 看 只 占 64B 的 
Configuration Header 〈 见 图 5-29) 。 


其 中 ，Type 0Header 是 Endpoint 的 Configuration Header，Type 
1Header 是 Switch 的 Configuration Header。 


f$ Device ID. Vendor ID Class Code 和 Revision ID 是 只 读 寄 存 器 ， 
PCIe 设 备 通 过 这 些 寄 存 器 告诉 主机 软件 ， 这 是 哪个 厂家 的 设备 、 设 备 ID 
是 多 少 以 及 是 什么 类 型 的 网卡、 显卡 、 桥 ) 设备 。 


其 他 的 我 们 暂时 不 看 ， 我 们 看 看 重要 的 BAR (Base Address 


Register) . 


对 Endpoint Configuration (Type 0) 提供 了 最 多 6 个 BAR， 而 对 
Switch (Type 1) 来 说 只 有 2 个 。BAR 是 做 什么 的 ? 


每 个 PCIe 设 备 ， 都 有 目 己 的 内 部 空间 ， 这 部 分 空间 如 果 开 放 给 主机 
(软件 或 者 CPU) 访问 ， 那 么 主机 怎样 才能 往 这 部 分 空间 写 入 或 者 读数 
据 呢 ? 


我 们 知道 ，CPU 只 能 直接 访问 主机 内 存 (Memory) 空间 (或 者 IO 
空间 ) ， 不 能 对 PCIe 等 外 设 进行 直接 操作 。 怎 么 办 ? 记得 前 文 提 到 的 
RCH? 它 可 以 为 CPU 分 忧 。 


Type 0 Header Type 1 Header 
Byte Doubleword Byte Doubleword 
3 2 1 0 3 2 1 0 
Device ID Vendor ID 















Device ID Vendor ID 


Command 





Status Command Status 





Revision 
ID 


Revision 
Class Code Class Code 


ID 
Header Latency 3 Header : 
Type Timer Size Type Timer Size 
Base Address 0 Base Address 0 04 









BIST Cache Line 





















































R r Secondary | Subordinate | Secondary 
iiec oon d $ Latency desee Bus Number | Bus Number € 
Base Address 3 ] Secondary Status TO Limit 07 
Base Address 4 Memory Limit Memory Base 08 
Prefetchable Prefetchable 
Base Address 5 S s 09 
Memory Limit Memory Base 
CardBus CIS Pointer Prefetchable Base-Upper 32-bits 10 
Subsystem ID Subsystem Vendor ID Prefetchable Limit-Upper 32-bits 11 
; I/O Limit TO Base 
Expz ROM Base Add à 12 
MESSEN AMT ERS ESE Upper 16-bits Upper 16-bits 
Reserved " | iip Reserved Capabilities Pointer 13 
Pointer 
Reserved Expansion ROM Base Address 14 
. Interrupt . A Interrupt : 
Max Lat Min Gnt Pin Interrupt Line | 15 Bridge Control Pin Interrupt Line| 15 











图 5-29 配置 空间 的 Header 


解决 办 法 是 : CPU 如 果 想 访问 某 个 设备 的 空间 ， 由 于 它 不 能 杀 自 跟 
那些 PCIe 外 设 打 交道 ， 因 此 叫 RC 去 办 。 比 如 ， 如 果 CPU 想 读 PCIe 外 设 
的 数据 ， 先 叫 RC 通 过 TLP 把 数据 从 PCIe 外 设 读 到 主机 内 存 ， 然 后 CPU 从 
主机 内 存 读数 据 ， 如 果 CPU 要 往外 设 写 数据 ， 则 先 把 数据 在 内 存 中 准备 
好 ， 然 后 叫 RC 通 过 TLP 写 入 到 PCIe 设 备 。 


图 5-30 的 最 左边 的 虚线 表示 CPU 要 读 Endpoint A 的 数据 ，RC 则 通过 
TLP《〈 经 历 Switch) 数据 交互 获得 数据 ， 并 把 它 写 入 到 系统 内 存 中 ， 然 
后 CPU 从 内 存 中 读 取 数据 〈 深 色 实 线 箭头 所 示 ) ， 从 而 CPU 间接 完成 对 
PCIe 设 备 数据 的 读 取 。 














具体 实现 就 是 上 电 的 时 候 ， 系 统 把 PCIe 设 备 开 放 的 空间 (系统 软件 
可 见 ) 映射 到 内 存 地 址 空间 ，CPU 要 访问 该 PCIe 设 备 空间 ， 只 需 访 问 对 
应 的 内 存 地 址 空间 。RC 检 碍 该 内存 地 址 ， 如 果 发 现 该 内 存 空 间 地 址 是 
某 个 PCIe 设 备 空间 的 映射 ， 就 会 触发 其 产生 TLP， 去 访问 对 应 的 PCIe 设 
备 ， 读 取 或 者 写 入 PCIe 设 备 。 

一 个 PCIe 设 备 ， 可 能 有 若干 个 内 部 空间 (属性 可 能 不 一 样 ， 比 如 有 
些 可 预 读 ， 有 些 不 可 预 读 ) 需要 映射 到 内 存 空间 ， 设 备 出 三 时 ， 这 些 衬 
间 的 大 小 和 属性 都 写 在 Configuration BAR 寄 存 器 里 面 ， 上 电 后 ， 系 统 软 
件 读 取 这 些 BAR， 分 别 为 其 分 配对 应 的 系统 内 存 地 址 空间 ， 并 把 相应 的 
内 存 基 地 址 写 回 到 BAR (BAR 的 地 址 其 实 是 PCI 总 线 域 的 地 址 ，CPU 访 
问 的 是 存储 器 域 的 地 址 ，CPU 访 问 PCIe 设 备 时 ， 需 要 把 总 线 域 地 址 转换 
成 存储 器 域 的 地 址 ) 。 





- 


———— 
- 





Endpoint A Endpoint B 


图 5-30 “CPU 与 EP 通 信 示 例 


如 图 5-31 所 示 ，Native PCIe Endpoint (Switch 右 下 ) 只 支持 Memory 
Map， 它 有 两 个 不 同属 性 的 内 部 空间 要 开放 给 系统 软件 ， 因 此 ， 它 可 以 
分 别 映 射 到 内 存 (Memory， 不 是 DRAM 区 域 〉 地 址 空间 的 两 个 地 方 ; 
还 有 一 个 Legacy Endpoint, ' BE x $$ Memory Map， 还 文 持 IO Map， 它 
也 有 两 个 不 同属 性 的 内 部 空间 ， 分 别 映射 到 系统 内 存 空 间 和 IO 空间 。 





Legacy PCIe Memory jl 














Endpoint Endpoint 2% or 2“ 
MMIO 
MMIO (P) ( Prefetchable ) 





MMIO 
( Non-Prefetchable ) 


系统 内 存 


22 5 (DRAM) 
16 i 
f aiii 


图 5-31 Memory 映 射 和 LO 映射 示 例 


下 面 ， 我 们 来 看 一 下 ， 对 于 PCIe 设 备 ， 系 统 软件 是 如 何 为 其 分 配 映 
射 空间 的 ( 见 图 5-32) 。 


上 电 时 ， 系 统 软件 首先 会 读 取 PCIe 设 备 的 BAR0， 得 到 数据 ( 见 图 
5-33) 


MMIO (NP) 


然后 系统 软件 往 该 BAR0 写 入 全 1 ( 见 图 5-34) 。 


BAR 寄 存 器 有 些 bit 是 只 读 的 ， 是 PCIe 设 备 在 出 厂 前 就 固定 好 的 bit， 
写 全 1 进去 ， 如 果 值 保持 不 变 ， 就 说 明 这 些 bit 是 厂家 固化 好 的 ， 这 些 固 
化 好 的 bit 提 供 了 这 块 内 部 空间 的 一 些 信息 : 


Type 0 Header 












































31 23 15 7 0 
Device ID | Vendor ID 00h 
Status | Command 04h 没有 初始 化 的 BAR 
chs 31 12 43 21 0 
Class Code Line Size XXXX XXXX XXXX XXXX XXXX | 00000000 | 0 | 00| 0 | (1) 
BIST Header |Latency | Cache 

i Type Timer | Line Size BAR 全 部 写 1 
Base Address 0 (BARO ) 31 12 43. 2: O 
Base Address 1 (BARI1) 14h 1111 1111 1111 1111 1111 | 00000000 | 0 |00|0|(2) 
Base Address 2 (BAR2 ) 3 

BAR 5 À base address 
31 12 43 2 1 0 





Base Address 4 (BAR4 ) 
Base Address 5 (BARS ) 
CardBus CIS Pointer 


Subsystem Subsystem 
Device ID Vendor ID 


Expansion ROM Base Address 


Reserved cu iid 34h 
Pointer 


Base Address 3 (BAR3 ) 





1111 1001 0000 0000 0000 | 00000000 [o [oo] 0 | 3) 
LC) (9) (0) (0) (0)] 








0 — Memory request 
1 = IO request 


00 = 32-bit decoding 
10 = 64-bit decoding 









0 = non-prefetchable 
1 = prefetchable 


inei lcu start address ( lower 12 bits assumed to be = 0 ) 
MaxLat | Min Gnt UR P as d 3Ch (F900 0000h) 
ir in 





图 5-32 BAR0 设 置 示例 
没有 初始 化 的 BAR 


31 12 


43210 
XXXX XXXX XXXX XXXX XXXX | 00000000 | 0 | 00 | 0 
图 5-33 ”设备 初始 BAR0 值 
BAR 4573 1 
31 12 43210 
hri n im [once [o oo fo. 
图 5-34 ”系统 软件 往 BAR0 写 入 全 1 后 的 值 

如 何 解读 ? 低 12 位 没 变 ， 表 明 该 设备 空间 大 小 是 4KB (2 的 12 次 方 





字 节 ) ， 然 后 低 4 位 表明 了 该 存储 空间 的 一 些 属 性 (IO 映射 还 是 内 存 映 
射 ? 32bit 地 址 还 是 64bit 地 址 ? 能 否 预 取 ? 做 过 单片机 的 人 可 能 知道 ， 有 
些 寄 存 右 只 要 一 读 ， 数 据 就 会 清 挥 ， 因 此 ， 对 这 样 的 空间 ， 是 不 能 预 读 
的 ， 因 为 预 读 会 改变 原来 的 值 ) ， 这 些 都 是 PCIe 设 备 在 出 三 前 都 设置 好 
的 ， 提 供给 系统 软件 的 信息 。 

然后 系统 软件 根据 这 些 信 息 ， 在 系统 内 存 空间 找到 这 样 一 块 地 方 来 
映射 这 4KB 的 空间 ， 把 分 配 的 基地 址 写 入 到 BAR0 〈 见 图 5-35) 。 


BAR 与 人 Base Address 
3l 12 43 21 0 


Li 60 6006 0000 0000 | 00000000 [o [oo [o 


(F) (9) (0) (0) (0) 


AKB 对 齐 的 高 20 位 起 始 地 址 
( 低 12 位 应 当 为 0) 





—. 


F900 0000h) 
图 5-35 “主机 软件 为 该 空间 分 配 地 址 空间 后 BAR0 的 值 


从 而 完成 了 该 PCIe 空 间 的 映射 。 一 个 PCIe 设 备 可 能 有 若干 个 内 部 空 
间 需 要 开放 出 来 ， 系 统 软件 依次 读 取 BAR1、BAR2...…… 直到 BAR5， 完 
成 所 有 内 部 空间 的 映射 。 


上 面 主要 讲 了 Endpoint 的 BAR，Switch 也 有 两 个 BAR， 这 里 不 展开 
讲 ， 下 节 讲 TLP 路 由 的 时 候 再 回 过 头 来 讲 。 下 面 我 们 继续 说 配置 空间 。 


前 面 说 每 个 PCIe 设 备 都 有 一 个 配置 空间 ， 其 实 这 样 的 说 法 是 不 准确 
的 ， 而 是 每 个 PCIe 设 备至 少 有 一 个 配置 空间 。 一 个 PCIe 设 备 可 能 具有 多 
个 功能 (Function) ， 比 如 既 能 当 人 硬盘 ， 还 能 当 网 卡 ， 每 个 功能 对 应 一 
个 配置 空间 。 


在 一 个 PCIe 拓 扑 结构 里 ， 一 条 总 线 下 面 可 以 挂 几 个 设备 ， 而 每 个 设 
备 可 以 具有 几 个 功能 ， 如 图 5-36 所 示 。 








CPU 


Host/PCI 
Bridge 





Bus 1 Bus 2 Bus 6 Bus 5 

Dev 0 Dev 2 Dev 1 Dev 0 

Func 0 Bus 6 
END 7000 Foco EXE Hen i 





图 5-36 ” PCIe 中 的 Bus、device 和 function 


因此 ， 在 整个 PCIe 系 统 中 ， 只 要 知道 了 Bus No.+Device 
No.+Function No.， 就 能 找到 唯一 的 Function 。 


寻 址 基本 单元 是 功能 ， 它 的 ID 由 Bus+Device+Function 组 成 








(BDF) 。 一 个 PCIe 系 统 ， 可 以 最 多 有 256 条 Bus， 每 条 Bus 上 最 多 可 以 
挂 32 个 设备 ， 而 每 个 设备 最 多 又 能 实现 8 个 Function， 每 个 Function 对 应 
4KB 的 配置 空间 。 上 电 时 ， 这 些 配置 空间 都 需要 映射 到 主机 的 内 存 地 址 
空间 〈PCIe 域 ， 非 DRAM 区 域 ) 。 这 块 内 存 地 址 映射 区 域 大 小 为 : 
256x32x8x4KB=256MB 。 注 意 ， 这 内 是 内 存 空间 的 某 个 区 域 ， 不 占用 
DRAM 空 间 。 











系统 软件 如 何 读 取 Configuration 空 间 呢 ?不 能 通过 BAR 中 的 地 址 ， 
为 什么 ? 别 忘 了 BAR 是 在 Configuration 中 的 ， 你 首先 要 读 取 
Configuration， 才 能 得 到 BAR。 系 统 不 是 为 所 有 可 能 的 Configuration 空 
间 做 了 内 存 上 映射 吗 ? 系统 软件 想 访 问 哪个 Configuration， 只 需 指 定 相应 
Function 对 应 的 内 存 空 间 地 址 ，RC 发 现 这 个 地 址 是 Configuration 映 射 空 
间 ， 就 会 产生 相应 的 Configuration Read TLP 〈 映 射 地 址 ~“BDF) 去 获得 
相应 Function 的 Configuration 。 


再 回想 一 下 前 面 介绍 的 Configuration Read TLP 的 Header 格 式 〈( 见 图 
5-37) 。 


T2 


+0 
7|6 4 l 6 4 o|7| 3 


te d Fmt Type IRE, I R TH| T|E| Attr | AT Length 
Pew aya 0010 x 000 TI*lo|p|P| oo | oo 0000000001 


| M" DW BE Ist DW 
Byte 4 Requester ID 0000 
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S 3 2 5 
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图 5-37  ConfigurationRead TLPH'JHeader 


Bus Number-*Device-FunctioniL HE — 4E f Hbsixt&; Ext Reg 
Number*Register Number 相 当 于 配置 空间 的 偏 移 。 找 到 设备 ， 然 后 指定 
配置 空间 的 偏 移 ， 就 能 找到 具体 想 访问 的 配置 空间 的 某 个 位 置 (寄存 
2 s 





请 注意 ， 只 有 RC 才能 发 起 Configuration 的 访问 请 求 ， 其 他 设备 是 不 
允许 对 别 的 设备 进行 Configuration 读 写 的 。 


5.7 TLP 的 路 由 
一 个 TLP 是 怎样 历经 干 山 万 水 ， 最 后 顺利 抵达 目的 地 的 昵 ? 


下 面 就 以 图 5-38 所 示 的 简单 拓扑 PA 讨论 一 个 TLP 是 怎样 从 
发 起 者 到 达 接 收 者 ， 即 TLP 的 路 由 问题 


Root Complex 


Switch 


PCI/PCI-X 





图 5-38 ”TLP 如 何 传输 ? 


PCIe 共 有 三 种 路 由 方式 : 基于 地 址 (Memory Address) 路 由 、 基 于 
设备 ID (Bus Number+Device Number+Function Number) MH, wA gl 
是 隐 式 〈Implicit) 路由。 


表 5-6 ”TLP 路 由 方式 


TLP 类 型 路 由 方式 
Memory Read/Write TLP 地 址 路 由 
Configuration Read/Write TLP ID 路 由 
Completion TLP ID 路 由 
Message TLP 地 址 路 由 或 者 ID 路 由 或 者 隐 式 路 由 


不 同类 型 的 TLP， 其 寻 址 方式 也 不 同 ， 表 5-6 总 结 了 每 种 TLP 对 应 的 


路 由 方式 。 
下 面 分 别 讲述 这 几 种 路 由 方式 。 
1. 地 址 路 由 
前 面 提 到 ，Switch 负 责 路 由 和 TLP 的 转发 ， 而 路 由 信息 是 存储 在 


Switch 的 Configuration 空 间 的 ， 因 此 ， 很 有 必要 先 理解 Switch 的 
Configuration 〈 见 图 5-39) 。 





BAR0 和 BAR1 没 有 什么 好 说 ， 跟 前 节 讲 的 Endpoint 的 BAR 意 义 一 
样 ， 存 放 Switch 内 部 空间 在 主机 内 存 空间 映射 基 址 。 


Switch 有 一 个 上 游 端 口 〈 靠 近 RC) 和 若干 个 下 游 端 口 ， 每 个 端口 其 
实 是 一 个 Bridge， 都 有 一 个 Configuration， 每 个 Configuration 描 述 了 其 下 
面 连接 设备 空间 映射 的 范围 ， 分 别 由 Memory Base 和 Memory Limit 来 表 
示 。 对 上 游 端 口 ， 其 Configuration 描 述 的 地 址 范围 是 它 下 游 所 有 设备 的 
映射 空间 范围 ， 而 对 每 个 下 游 端 口 的 Configuration， 描 述 了 连接 它 端 口 
设备 的 映射 空间 范围 。 


前 面 我 们 看 到 ，Memory Read 或 者 Memory Write TLP 的 Header 里 面 
都 有 一 个 地 址 信息 ， 该 地 址 是 PCIe 设 备 内 部 空间 在 内 存 中 的 映射 地 址 
( 见 图 5-40〉。 








当 一 个 Endpoint 收 到 一 个 Memory Read 或 者 Memory Write TLP, ‘Č 
会 把 TLP Header 中 的 地 址 跟 Configuration 当 中 所 有 的 BAR 寄 存 器 比较 ， 
如 果 TLP Header 中 的 地 址 落 在 这 些 BAR 的 地 址 空间 ， 那 么 它 就 认为 该 
TLP 是 发 给 它 的 ， 于 是 接收 该 TLP， 和 否则 就 忽略 ， 如 图 5-41 所 示 。 
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Type Timer | Line Size 
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IO Limit IO Base 30h 
Upper 16Bits Upper 16 Bits 


Expansion ROM Base Address 38h 
Bridge Interrupt | Interrupt 3Ch 
Control Pin Line 


图 5-39 Type 1Configuration Header 
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图 5-40 “地址 路 由 3DW 的 TLP Header 
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Pointer 
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图 5-41 EP 通过 对 比 目 的 地 址 和 自己 的 BAR 决 定 是 否 接收 该 TLP 
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34h 
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2— ^ Switch. EÙ im L1 $1] — 4 Memory Read 或 者 Memory Write 
TLP， 它 首先 把 TLP Header 中 的 地 址 跟 它 自己 Configuration 当 中 的 所 有 
BAR 寄 存 器 比较 ， 如 果 TLP Header 当 中 的 地 址 落 在 这 些 BAR 的 地 址 空 


间 ， 那 么 它 就 认为 该 TLP 是 发 给 它 的 ， 于 是 接收 该 TLP〈 这 个 过 程 与 
Endpoint 的 处 理 方式 一 样 ) ;如 果 不 是 ， 则 看 这 个 地 址 是 否 落 在 其 下 游 
设备 的 地 址 范围 内 (是 否 在 Memory Base 和 Memory Limit 之 间 ) ， 如 果 
是 ， 说 明 该 TLP 是 发 给 它 下 游 设备 的 ， 因 此 它 要 完成 路 由 转发 ， 如 果 地 
址 不 洲 在 下 游 设 备 的 地 方 范 围 内 ， 说 明 该 TLP 不 是 发 给 它 下 游 设 备 的 ， 
则 不 接受 该 TLP， 如 图 5-42 所 示 。 





刚才 的 描述 是 针对 TLP 从 Upstream 流 到 Downstream 的 路 由 。 如 果 
TLP 从 下 游 往 上 走 呢 ? 


E mO) 首先 把 TLP Header 中 的 地 址 跟 它 自己 Configuration 当 
中 的 所 有 BAR 寄 存 器 比较 ， 如 果 TLP Header 当 中 的 地 址 落 在 这 些 BAR 的 
地 址 空间 ， 那 么 它 束 认为 该 TLP 是 发 给 它 的 ， 于 是 接收 该 TLP【〈 跟 前 面 
描述 一 样 ) ;如 有 果 不 是 ， 那 就 看 这 个 地 址 是 否 落 在 其 下 游 设 备 的 地 址 范 
围 内 (是 否 在 Memory Base 和 Memory Limit 之 间 ) 。 如 果 是 ， 这 个 时 候 
不 是 接受 ， 而 是 拒绝 ， 相反 ， 如 果 地 址 不 沙 在 下 游 设 备 的 地 址 范围 内 ， 
Switch 则 把 该 TLP 传 上 去 。 
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图 5-42 ”Switch 如 何 分 配 地 址 路 由 













2.ID 路 由 


在 一 个 PCIe 拓 扑 结构 中 ， 由 ID=Bus Number+Device 
Number+Function Number (BDF) 能 唯一 找到 某 个 设备 的 某 个 功能 。 这 
种 按 设 备 D 号 来 寻 址 的 方式 叫 作 ID 路 由 。Configuration TLP 和 
Completion TLP 〈CplD) 按 ID 路 由 寻 址 ，Message 在 某 些 情况 下 也 是 ID 
路 由 。 


使 用 ID 路 由 的 TLP， 其 TLP Header 中 含有 BDF 信 息 〈 见 图 5-43) 。 


当 一 个 Endpoint 收 到 一 个 这 样 的 TLP， 它 用 自己 的 ID 和 收 到 TLP 
Header 中 的 BDF 比 较 ， 如 果 是 给 自己 的 ， 就 收 下 TLP， 奋 则 就 拒绝 。 


如 果 是 一 个 Switch 收 到 这 样 的 一 个 TLP， 怎 么 处 理 ? 我 们 再 回头 看 
看 Switch 的 Configuration Header( 见 图 5-44)。 
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取决 于 Type 域 








Bytes 10-11 取决 于 Type 域 


图 5-43 ”使 用 ID 路 由 的 3DW TLP Header 


注意 : 不 是 一 个 Switch 对 应 一 个 Configuration 空 间 (Type 
1Header) ， 而 是 Switch 的 每 个 Port 都 有 一 个 Configuration 空 间 (Type 
lHeader) 。 


Type 1 Header 





31 15 0 
04h 
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Base Address 0 (BARO ) 10h 
14h 
Ln 3 
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: 18h 
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Memory Limit Memory Base " 
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Memory Limit Memory Base 
Prefetchable Memory Base 28h 
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Upper 32 Bits J 


IO Limit IO Base 30h 
Upper 16Bits Upper 16 Bits 
Pointer 


Expansion ROM Base Address 38h 
Bridge Interrupt | Interrupt 3Ch 
Control Pin Line 


图 5-44 Type 1Header 


看 三 个 寄存 器 : Subordinate Bus Number, Secondary Bus Number 和 
Primary Bus Number， 如 图 5-45 所 示 。 






Primary Bus 


Secondary Bus Switch 


Function 0 


M 


Bus 7 Bus 9 
Device 0 Device 0 


图 5-45 Primary Bus 和 Secondary Bus 的 概念 


对 一 个 Switch 来 说 ， 每 个 Port 靠 近 RC《〈 上 游 ) 的 那 根 Bus 叫 作 
Primary Bus， 其 Number 写 在 其 Configuration Header 中 的 Primary Bus 
Number 寄 存 器 ; 每 个 Port 下 面 的 那 根 Bus 叫 作 Secondary Bus， 其 Number 
写 在 其 Configuration Header 中 的 Secondary Bus Number 寄 存 器 ; 对 上 游 
iH, Subordinate Bus 是 其 下 游 所 有 端口 连接 的 Bus 编 号 最 大 的 那 根 
Bus, Subordinate Bus Number 写 在 每 个 Port 的 Configuration Header" If] 
Subordinate Bus Number 寄 存 器 。 


当 一 个 Switch 收 到 一 个 基于 ID 寻 址 的 TLP， 首 先 检查 TLP 中 的 BDF 
是 否 与 自己 的 力 匹 配 ， 如 匹配 ， 说 明 该 TLP 是 给 自己 的 ， 收 下 ; 否则， 
检查 该 TLP 中 的 Bus Number f Y% TE Secondary Bus Number 和 


Function 0 








Subordinate Bus Number 之 间 。 如 果 是 ， 说 明 该 TLP 是 友 给 其 下 游 设备 
的 ， 然 后 转发 到 对 应 的 下 游 山 口 ， 如 果 是 其 他 情况 ， 则 拒绝 这 些 TLP。 


3. 隐 式 路 由 


只 有 Message TLP 才 文 持 隐 式 路 由 。 在 PCIe 总 线 中 ， 有 些 Message 是 
与 RC 通信 的 ，RC 是 该 TLP 的 发 送 者 或 者 接收 者 ， 因 此 没有 必要 明明 日 
日 地 指定 地 址 或 者 ID， 这 种 路 由 方式 称 为 隐 式 路 由 。Message TLP 还 文 
持 地 址 路 由 和 ID 路 由 ， 但 以 隐 式 路 由 为 主 。 


Message TLP 的 Header 总 是 4DW， 如 图 5-47 所 示 。 
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图 5-46 ”Switch 如 何 进 行 ID 路 由 
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Bytes 8-11 ( 跟 Message code 相关 ) 
Bytes 12-15 ( 跟 Message code 相关 ) 





5-47 Message TLP 的 Header 


Type 字段 ， 低 3 位 ， 由 rr 表示 ， 指 明 该 Message 的 路 由 方式 ， 有 具体 如 
图 5-48 所 示 。 


Message Routing Subfield R[2:0] 

* iub Implici. Route to the Root Complex, 

* 001b = Route by Address (bytes 8-15 of header contain address) 
* 010b = Route by ID (bytes 8-9 of header contain ID) 








* QUb.z unplicit  Droadcastdoynsteam., 
* JUUb.z unplicit.z Local terminale. aL recelver. 
* Ab zinplicit Gather se route tothe Root Complex, 
* 110b - 111b = Reserved: terminate at receiver 
图 5-48 Type 域 低 3 位 决定 了 Message TLP 路 由 方式 


当 一 个 Endpoint 收 到 一 个 Message TLP， 检 查 TLP Header， 如 果 是 
RC 的 广播 Message (011b) 或 者 该 Message 终 结 于 它 (100b) ， 它 就 接 
受 该 Message。 


当 一 个 Switch 收 到 一 个 Message TLP， 检 查 TLP Header， 如 果 是 RC 
的 广播 Message (011b) ， 则 往 它 每 个 下 游 痛 口 复制 该 Message 然 后 转 
发 。 如 果 该 Message 终 结 于 它 (100b) ， 则 接受 该 TLP。 如 果 下 游 端 口 
收 到 发 给 RC 的 Message， 则 往 上 游 端 口 转发 。 


上 面 说 的 是 Message 使 用 隐 式 路 由 的 情况 。 如 果 是 地 址 路 由 或 者 ID 
IH, Message TLP 的 路 由 跟 其 他 的 TLP 一 样 ， 不 再 效 述 。 


5.8 数据 链 路 层 


前 面 看 到 ， 一 个 TLP 源 于 事务 层 ， 终 于 事务 层 。 但 TLP 不 是 从 发 送 
端 一 步 就 跑 到 接收 器 ， 它 经 由 发 送 闪 的 数据 链 路 层 和 物理 层 ， 然 后 是 接 
收 闯 的 物理 层 和 数据 链 路 层 ， 节 终 完成 TLP 的 发 送 和 接收 。 


数据 链 路 层 位 于 事务 层 的 下 一 层 ， 理 所 当然 为 事务 层 服务 。 那 么 ， 
数据 链 路 层 在 TLP 传 输 过 程 中 起 了 什么 作用 呢 ? 


发 送 端 : 数据 链 路 层 接收 上 层 传 来 的 TLP， 它 给 每 个 TLP 加 上 
Sequence Number〈 序 列 号 ， 下 文 都 用 “序列 号 ?来 前 述 ) 和 LCRC (Link 
CRC) ， 然 后 转交 给 物理 层 。 


Pelim: 数据 链 路 层 接收 物理 层 传 来 的 TLP， 检 测 CRC 和 序列 号 ， 
如 果 有 问题 ， 会 拒绝 接收 该 TLP， 即 不 会 传 到 它 的 事务 层 ， 并 且 通 知 发 
送 端 重 传 ， 如 果 该 TLP 没 有 问题 ， 数 据 链 路 层 则 去 除 TLP 中 的 序列 号 和 
LCRC， 交 由 它 的 事务 层 ， 并 通知 发 送 端 TLP 正 确 接收 。 


从 上 面 的 描述 可 以 看 出 ， 数 据 链 路 层 保 证 了 TLP 在 数据 总 线 上 的 正 
常 传输 ， 并 使 用 了 握手 协议 CAck/NalÓO 和 重 传 (Retry) 机 制 来 保证 数 
据 传输 的 一 致 性 和 完整 性 。 


数据 链 路 层 的 作用 ， 除 了 保证 TLP 数 据 包 的 正确 传输 ， 还 包括 TLP 
流量 控制 和 电源 管理 等 功能 。 数 据 链 路 层 借助 DLLP 来 完成 这 些 功能 ， 
如 图 5-49 所 示 。 

DLLP (Data Link Layer Packet， 数 据 链 路 层 的 数据 包 ) 源 于 发 送 端 


的 数据 链 路 层 ， 终 于 接收 端的 数据 链 路 层 ， 因 此 ， 处 于 高 层 的 事务 层 是 
感知 不 到 它 的 存在 的 。 


Device A Device B 


Device Core Device Core 


Flow Control, 
Ack / Nak, Etc. 


e------2---.------ 
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3 A (3) 
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图 5-49 ”数据 链 路 层 在 协议 栈 中 的 位 置 和 作用 


发 送 端 : 数据 链 路 层 生 成 DLLP， 交 由 物理 层 ， 物 理 层 加 起 始 
(SDP) 和 结束 标志 (GEN 12 加 END，GEN3 则 没有 ) ， 然 后 物理 传输 


到 对 方 。 


paw: 物理 层 对 DLLP 拘 头 去 尾 ， 交 由 数据 链 路 层 ， 数 据 链 路 层 
对 DLLP 进 HITRI, 不 管 正确 与 否 ，DLLP 都 终于 这 层 。 


与 事务 层 TLP 传 输 不 同 ， 数 据 链 路 层 只 处 理 端 到 端的 数据 传输 。 一 
个 TLP， 可 以 翻 山越 岭 (经 过 若干 个 Switch) ， 从 一 个 设备 传输 到 相隔 
很 远 的 设备 。 但 DLLP 的 传输 ， 仅 限于 相 邻 的 两 个 端 口 。 因 此 ，DLLP 中 
不 需要 包含 路 由 信息 ， 即 不 需要 告诉 我 这 个 DLLP 是 哪个 设备 发 起 的 ， 
以 及 要 发 送 给 哪个 目标 设备 。 


如 图 5-50 所 示 ， 一 个 TLP 可 以 从 RC 传 到 EP1， 但 DLLP 的 传输 只 限于 
RC Switch 上游 Port，Switch 的 上 游 Port 与 下 游 Port， 以 及 Switch 下 游 
Port 与 EP1 (或 者 EP2) 。 


图 5-50 


Switch 





数据 链 路 层 主要 有 四 大 类 型 DLLP: 


:用 以 确保 TLP 传 输 完 整 性 的 DLLP: 


: 流 控 相关 的 DLLP:; 


:电源 管理 相关 的 DLLP; 


-厂家 目 定 义 DLLP。 
具体 如 表 5-7 所 示 。 


DLLP 类 型 
ACK (确认 TLP 收 到 无 误 ) 
NAK (TLP 有 问题 ， 需 要 重 发 ) 
PM Enter L1 
PM Enter L2L3 
PM Active State Request L1 





表 5-7 “DLLP 类 型 


简单 的 PCIe 系 统 示例 


ACK/NAK; 


目的 
用 以 保证 TLP 传输 的 完整 性 
用 以 保证 TLP 传输 的 完整 性 
电源 管理 
电源 管理 
电源 管理 





(5E) 
DLLP 类 型 目的 

PM Request Ack 电源 管理 

InitFC1 P TLP 的 流 控 
InitFC1_NP TLP 的 流 控 
InitFC1_Cpl TLP 的 流 控 
InitFC2 P TLP 的 流 控 
InitFC2 NP TLP 的 流 控 
InitFC2 Cpl TLP 的 流 控 
UpdateFC P TLP 的 流 控 
UpdateFC_NP TLP 的 流 控 
UpdateFC Cpl TLP 的 流 控 
VendorSpecific 厂家 月 定义 


保留 的 其 他 保留 


DLLP 大 小 为 6BB 〈 物 理 层 上 加 上 头 尾 ， 传 输 的 是 8B) ， 格 式 如 图 5- 
51 上 所 示 。 


+0 十 


1 +2 +3 
7|e|s|4|s|2]1]o 7|e|s|4|s |2]1 |o 7|e|s 4| |2|1 |o 7|e|s |4|s|2|1]o 





Byte 0 
Byte 4 


DLLP Type 
16 bit CRC 


(Fields Vary With DLLP Type) 






图 5-51 6B DLLP 格 式 
不 同类 型 的 DLLP， 格 式 相 同 ， 内 容 不 一 样 。 
1.ACK/NAK 协 议 
首先 ， 我 们 来 看 ACK/NAK DLLP， 其 格式 如 下 〈( 见 图 5-52〉。 


+0 +1 +2 +3 
7|e|s|4]|3|2|1]o 7|e|s||3|2|1]o 7|e|s|4|s|2|1]o 7|6 4[s|2[i]o 


0000 0000 - Ack 


[5-52  ACK/NAK DLLP 格 式 


5 











数据 链 路 层 通 过 ACK/NAK 协 议 来 保证 每 个 TLP 的 正确 传输 ， 其 基 
本 原理 为 : TLP 发 送 端的 数据 链 路 层 为 每 个 TLP 加 上 序列 号 和 LCRC， 在 
该 TLP 被 接收 端正 确 收 到 之 前 ， 它 会 一 直 保 持 在 一 个 叫 Replay Buffer 的 
接口 里 面 。ITLP 接 收 端的 数据 链 路 层 接收 到 该 TLP 后 ， 做 CRC 校 验 和 序 
列 号 检查 ， 如 果 没 有 问题 ，TLP 接 收 端 (可 能 ) 会 生成 和 发 送 ACK 
DLLP，TLP 发 送 方 接收 到 ACK 后 ， 知 道 TLP 被 正确 接收 ， 因 此 它 会 把 相 
关 的 TLP 从 Replay Buffer 中 清除 ， 如 果 TLP 接 收 方 检测 到 TLP 有 错误 ， 则 
会 生成 和 发 送 NAK DLLP，TLP 发 送 方 接收 到 NAK 后 ， 知 道 有 TLP 传 输 
出 错 ， 会 重新 发 送 Replay Buffer 相 关 的 TLP 给 对 方 。TLP 传 输出 错 往 往 
是 瞬 态 的 ， 重 传 基本 能 保证 TLP 传 输 正确 。TLP 接 收 方 只 有 收 到 正确 的 
TLP 才 会 去 掉 序 列 号 和 LCRC， 并 把 TLP 交 给 它 的 事务 层 。 


前 面 提 到 ， 没 有 收 到 ACK 的 TLP， 发 送 端的 链 路 层 都 会 把 它 〈 包 括 
序列 号 和 LCRC) 放 在 Replay Buffer 中 。 在 接收 端 ， 当 成 功 收 到 一 个 TLP 
后 ， 它 的 序列 号 加 1， 设 置 为 下 一 个 期 望 接 收 到 的 TLP 序 列 写 。 


假设 当前 发 送 端 Replay Buffer 中 有 序列 号 分 别 为 10、11、12、13 的 4 
个 TLP， 即 这 些 TLP 发 送出 去 了 ， 但 还 没有 得 到 啊 应 。 


假设 接收 端 上 一 个 成 功 接收 到 的 TLP 序 列 号 为 11， 期 望 下 个 接收 到 
的 TLP 序 列 号 为 12。 这 时 ， 接 收 冰 接 收 到 一 个 TLP， 首 先 ， 它 会 对 该 
TLP 做 LCRC 校 验 : 


CD 校 验 失 败 


TLP 接 收 端 会 发 送 一 个 NAK， 其 中 AckNak_SEQ_NUM 设 为 11。 
TLP 发 送 端 接收 到 该 NAK 后 ， 知 道 11 和 它 之 前 的 TLP (这 里 是 TLP 10) 
被 成 功 接 收 ， 因 此 TLP 10 和 TLP 11 会 从 Replay Buffer 清 掉 (不 需要 重 
发 ) 。 同 时 ， 它 知道 12 和 后 面 的 TLP (这 里 是 TLP 13) 没有 被 成 功 接 
收 ， 因 此 它们 会 重 发 。 


(2) 校 验 成 功 
CRC 没 有 问题 ， 接 下 来 就 检查 TLP 的 序列 号 了 。 这 里 有 三 种 情况 : 
“TLP 接 收 端 发 现 收 到 的 TLP 序 列 写 为 12， 与 预期 相符 。TLP 接 收 站 


可 能 需要 发 一 个 ACK， 也 可 能 不 需要 发 ACK。 为 什么 这 么 说 ? 为 减少 
数据 链 路 层 DLLP 的 传输 ， 可 能 设置 正确 接收 到 奉 干 个 TLP 后 ， 才 会 返 











回 一 个 ACK， 并 非 每 成 功 接收 一 个 TLP， 就 返回 一 个 ACK。 假 设 这 个 时 
候 需 要 返回 ACK， 则 设 AckNak_SEQ_NUM 为 12。TLP 发 送 端 接收 到 该 
ACK， 知 道 TLP 12 和 它 之 前 所 有 的 TLP 都 被 成 功 接收 ， 因 此 TLP 10. 
TLP 11 和 TLP 12 会 从 Replay Buffer 清 掉 。 


:ITLP 接 收 端 发 现 收 到 的 TLP 序 列 号 为 13， 与 预期 不 符 〈 预 期 为 TLP 
12) 。TLP 接 收 端 希 望 接收 到 的 TLP 为 12， 这 个 时 候 收 到 的 却 是 13， 说 
明 TLP 12 在 半路 于 了 ， 发 生 丢 包 。 这 个 时 候 ， 接 收 端 会 发 一 个 NAK， 其 
中 AckNak_SEQ_NUM 设 为 11 〈 即 上 一 个 成 功 被 接收 的 TLP 序 列 号 ) 。 
TLP 发 送 端 接收 到 该 DLLP 后 ， 知 道 TLP 11 和 它 之 前 所 有 的 TLP 都 被 成 功 
接收 ， 因 此 TLP 10 和 TLP 11 会 从 Replay Buffer 清 掉 ， 并 重 发 TLP 12 和 它 
后 面 的 TLP (这 里 是 TLP 13) 。 


:ITLP 接 收 端 发 现 收 到 的 TLP 序 列 号 为 10， 与 预期 不 符 〈 预 期 为 TLP 
12) 。TLP 上 次 正确 接收 到 的 是 TLP 11， 这 次 又 收 到 一 个 序列 号 比 它 小 
的 TLP， 为 什么 会 这 样 ? 原因 是 在 TLP 发 送 端 ， 一 个 TLP 在 一 定时 间 内 
没有 收 到 ACK， 写 会 自动 重 发 所 有 Hold 在 Replay Buffer 中 的 TLP。 由 于 
发 送 端的 这 个 超时 重 发 机 制 ， 导 致 一 个 TILP 会 被 接收 端 接收 到 两 次 或 者 
更 多 次 《如 果 接 收 端 一 直 不 能 及 时 响应 ) 。TLP 接 收 端 如 果 收 到 重复 的 
TLP 包 ， 它 会 默默 扔 掉 这 些 重复 的 TLP， 并 发 送 ACK， 其 中 的 
AckNak_SEQ_NUM 设 为 11。TLP 发 送 端 接收 到 该 DLLP 后 ， 知 道 TLP 11 
和 它 之 E HE 因此 TLP 10 和 TLP 11 会 从 Replay 
Buffer 清 掉 。 


图 5-53 是 数据 链 路 层 内 部 框图 ， 从 中 我 们 可 以 看 到 ACK/NAK 是 怎 
样 实 现 的 。 











来 自 事务 层 发 往事 务 层 













数据 链 路 层 






Error 
Check 






图 5-53 ”数据 链 路 层 内 部 框图 


数据 链 路 层 通过 ACK/NAK 协 议和 TLP 重 传 机 制 ， 保 障 了 TLP 传 输 的 
数据 完整 性 。 


问题 来 了 ， 每 个 DLLP 在 接收 端 也 需要 做 CRC 校 验 ， 那 如 果 DLLP 出 
昔 了 怎么 办 ? 接收 端 会 丢弃 出 错 的 DLLP， 并 通过 下 一 个 成 功 的 DLLP 更 
IZ MERNE., 读者 可 根据 上 面 的 例子 自行 分 析 。 
2.TLP 流 控 (流量 控制 ，Flow Control) 


我 们 再 看 看 跟 流 控 相关 的 DLLP， 其 格式 如 图 5-54 所 示 。 
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0 2 
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图 5-54” 流 控 DLLP 格 式 


"a 里 只 简单 说 说 TLP 流 控 
JLE 


+l +3 
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TLP 的 发 送 端 不 能 随便 向 对 方 改 送 TLP， 因 为 接收 端 处 理 TLP 的 速 
上 度 可 能 赶不上 发 送 TLP 的 速度 。 接 收 端 如 果 没 有 足够 空间 接受 该 TLP 的 
话 ， 就 会 拒绝 该 TLP， 发 送 端 必须 重复 发 送 该 TLP 直 到 对 方 接受 ， 这 在 
一 定 程度 上 影响 了 通信 的 效率 。PCIe 有 一 套 流 控 机 制 ， 来 保证 TLP 的 发 
送 和 接收 是 高 效 的 。 








TLP 流 控 基 于 Credit。 每 个 TLP 都 有 一 定 大 小 ， 发 送 者 在 发 送 前 ， 先 
看 看 对 方 是 否 有 足够 的 空间 来 接纳 该 TLP， 如 果 有 ， 则 发 送 过 去 ， 否 则 
就 Hold 在 那里 ， 直 到 对 方 有 足够 的 空间 再 发 。 那 发 送 者 怎样 才能 知道 对 
方 有 多 少 空间 呢 ? PCIe 使 用 流 控 DLLP 来 告知 。 接 收 端 会 时 不 时 通过 
DLLP 来 告诉 对 方 我 有 多 少 TLP 接 收 空间 ， 然 后 发 送 端 依据 此 信息 诀 定 
是 不 是 生成 TLP 并 发 送 过 去 ， 如 图 5-55 所 示 。 





流 控 DLLP 
图 5-55 ”TLP 接 收 者 通过 流 控 DLLP 告 知 发送 者 可 用 TLP 接 收 空间 


需要 注意 的 是 ， 这 里 的 流 控 是 针对 TLP 传 输 而 言 。DLLP 的 传输 是 
不 需要 流 控 的 ， 因 为 每 个 DLLP 的 大 小 只 有 六 个 字 节 ， 跟 TLP 相 比 非常 
迷你 。 如 果 DLLP 需 要 流 控 ， 那 就 麻烦 了 。TLP 的 流 控 是 通过 DLLP 来 实 
现 的 ， 如 果 DLLP 还 需要 流 控 ， 那 又 有 谁 来 帮忙 实现 呢 ? 


3. 电 源 管理 
最 后 是 跟 电 源 管理 相关 的 DLLP〈 见 图 5-56) 。 




































































+0 +1 +2 +3 
?|e|s]4|3]2 i |o ?|e|s|4|3]2 1 |o ?|e|s|4|3]2 i|o 7|5|5|4|3|: i |o 
Byte 0 00100 x x x Reserved 


Byte 4 16-bit CRC 


图 5-56 ”电源 管理 DLLP 格 式 
关于 电源 管理 ， 请 查看 第 8 章 ， 在 这 里 不 做 解释 。 








59 物理 层 


物理 层 是 整个 PCIe 协 议 层 的 最 后 屋 ， 用 来 跑腿 的 。 无 论 是 TLP 还 是 
DLLP， 到 最 后 都 再 要 物理 层 来 进行 实 实在 在 的 物理 信号 传输 。 因 此 ， 
有 必要 深入 基层 ， 了 解 一 下 物理 层 在 做 什么 。 


物理 层 由 电气 模块 和 逻辑 模块 组 成 。 电 气 模 块 方面 ， 我 们 知道 PCIe 
是 采用 串 行 总 线 传输 数据 ， 使 用 的 是 差分 信号 ， 即 用 两 根 信 号 线 上 的 电 
平 差 表示 0 或 1。 与 单 端 信号 传输 相 比 ， 差 分 信号 抗 干扰 能 力 强 ， 能 提供 
更 宽 的 带宽 WEER) 。 打 个 比方 ， 假 设 用 两 个 信号 线 上 电 平 差 表 示 
0 和 1， 有 具体 来 讲 ， 差 值 大 于 0， 表 示 1; 差 值 小 于 0， 表 示 0。 如 果 传 输 过 
程 中 存在 干扰 ， 两 个 线 上 加 了 近乎 同样 大 小 的 干扰 电 平 ， 两 者 相 减 ， 差 
值 几乎 不 变 ， 并 不 会 影响 信号 传输 。 但 对 单 端 信号 传输 来 说 ， 就 很 容易 
受 干 扰 ， 比 如 0~1V 表 示 0，1 一 3V 表 示 1， 一 个 本 来 是 0.8V 的 电压 ， 加 
入 干扰 ， 变 成 1.5Vv， 相 当 于 0 变 成 1， 数 据 就 出 错 了 。 抗 干扰 能 力 强 ， 因 
而 可 以 用 更 快 的 速度 进行 数据 传输 ， 从 而 提供 更 宽 的 带宽 (关于 PCIe 速 
度 ， 可 参看 5.1 节 ) 。 

关于 电气 模块 更 多 详细 内 容 ， 可 以 去 读 PCIe 规 范 。 对 于 SSD 开 发 人 
员 (尤其 是 固件 开发 者 ) 来 说 ， 我 觉得 记 住 “ 串 行 总 线 ， 差 分 信号 ”就 可 
以 了 ，PCIe 的 快 是 因为 在 物理 传输 上 使 用 了 这 两 大 技术 。 


我 们 重点 看 看 物理 层 的 逻辑 模块 ， 如 图 5-57 所 示 。 























来 自 数据 链 路 层 的 数据 
数据 包 边界 指示 


Control 
Token 
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Mux 多 路 选择 需 


N*8 H D/K& 


Byte Striping 





Lane 0 


图 5-57 ”物理 层 中 发 送 端 逻辑 子 模块 








.物理 层 从 数据 链 路 层 获 得 TLP 或 者 是 DLLP， 然 后 放 到 TxBuffer 
里 。 


:物理 层 给 TLP 或 者 DLLP 加 入 尖 (Start code) 和 尾 (End code, Gen 
3 没有 尾巴 ) ; 给 每 个 TLP 或 者 DLLP 加 上 边界 符号 ， 这 样 接 收 端 就 能 把 
TLP 或 者 DLLP 区 分 开 。 


:第 一 节 提 到 ，PCIe 链 路 上 可 能 有 各 和 干 个 Lane。 在 物理 层 ，TLP 或 者 
DLLP 数 据 会 分 派 到 每 个 Lane 上 独立 传输 。 这 个 过 程 叫 Byte Stripping, 
类 似 于 串 并 转换 。 


.数据 进入 每 条 Lane 后 ， 分 别 加 串扰 (Scramble) ， 目 的 是 减少 电磁 
干扰 〈EMI) ， 手 段 是 让 数据 与 随机 数据 进行 异 或 操作 ， 输 出 伪 随 机 数 
据 ， 然 后 再 发 送出 去 。 

.加 扰 后 的 数据 进行 8/10 编 码 (Gen3 是 128/130 编 码 ) 。8/10 编 码 是 
IBM 的 专利 ， 目 的 主要 有 : 让 数据 流 中 的 0 和 1 个 数 相 当 ， 保 持 直 流 平 
衡 ; 般 入 时 钟 信 息 ，PCIe 不 需要 专门 的 时 钟 进行 信号 传输 。 

.最 后 进行 并 串 转 换 ， 发 送 到 串 行 物理 总 线 上 去 。 


接收 端 逻 辑 模 块 如 图 5-58 所 示 。 


发 送 到 数据 链 路 层 
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PCIe 的 三 层 ， 从 上 到 下 ， 依 次 为 事务 层 、 数 据 链 路 层 和 物理 层 。 每 
层 都 有 目 己 的 数据 包 定 义 : 事务 层 产 生 TLP， 经 过 数据 链 路 层 和 物理 层 


传输 给 接收 方 ; 数据 链 路 层 产 生 DLLP， 经 过 物理 层 传输 到 对 方 ; 物理 
层 ， 不 仅仅 为 上 层 TLP 和 DLLP 做 尹 衣 ， 其 实 它 也 有 目 己 的 数据 包 和 
义 ， 称 为 Ordered Sets， 人 简称 OS 。 


TLP 用 以 传输 应 用 层 或 者 命令 层 〈 事 务 层 的 顶头 上 司 ) 数据 ， 
DLLP 用 以 ACK/NAK、 流 控 和 电源 管理 等 ，OS 的 功能 是 物理 层 用 以 管 
理 链 路 的 ， 比 如 链 路 训练 (LinkTraining) 、 改 变 链 路 电源 状态 等 。 表 5- 
8 是 PCIe 中 OS 列 表 。 











表 5-8 Ordered Sets 列 表 


Ordered Sets 说 明 

TSI1OS/TS20S Training Sequence， 用 以 链 路 初始 化 和 链 路 训练 等 

EIOS Electrical Idle， 使 PCIe 链 路 进入 空闲 状态 

FTSOS Fast Training Sequence， 使 PCIe 链 路 从 低 功 耗 状 态 (L0s) 进入 正常 工作 状态 (L0) 
SOS (SKP OS) SKP OS， 用 于 时 钟 补偿 


EIEOS Electrical Idle Exit, PCIe 链 路 退出 空闲 状态 


5.10 PCIe Reset 
PCIe 是 个 博大 精深 的 协议 ， 跟 Reset 相 关 的 术语 就 有 不 少 : Cold 


Reset, Warm Reset, Hot Reset, Conventional Reset, Function Level 
Reset, Fundamental Reset, Non-Fundamental Reset. 


~ 完全 理解 PCIe Reset， 就 要 提纲 玫 领 ， 快 速 从 一 大 堆 概 念 中 理 


1. 整 理 出 这 些 Reset 之 间 的 关系 
这 些 Reset 之 间 是 从 属 关 系 ， Pru 总 线 规定 了 两 个 复位 方式 : 


Conventional Reset 和 Function 





Level Reset (FLR) 。 





Tfj Conventional Reset 又 进一步 分 为 两 大 类 : Fundamental Reset 和 
Non-Fundamental Reset. 


Fundamental Reset7; 38,15 Cold fl Warm Reset 方 式 ， 可 以 用 PCIe 将 
设备 中 的 绝 大 多 数 内 部 寄存 器 和 内 部 状态 都 恢复 成 初始 值 。 


而 Non-Fundamental Reset 方 式 为 Hot Reset 方 式 。 








看 看 表 5-9， 有 没有 感觉 好 一 点 ? 


表 5-9 PCIe Reset 分 类 


Fundamental Reset Cold Reset 和 Warm Reset 
Conventional Reset 
Non-Fundamental Reset Hot Reset 





Function Level Reset MEE 
2. 明 日 每 种 Reset 的 功能 、 实 现 方式 及 对 设备 的 影响 


Fundamental Reset: 由 人 硬件 控制 ， 会 重启 整个 设备 ， 包 括 : 重新 初 
始 化 所 有 的 State Machine、 所 有 的 硬件 逻辑 、Port State 和 Configuration 
Register. 





当然 ， 也 有 Fundamental Reset 搞 不 定 的 情况 ， 束 是 某 些 Register 里 属 
性 为 “Sticky” 的 Field， 跟 重生 一 样 坚强 ， 任 你 怎么 Reset， 我 自 妇 然 不 
动 。 


这 些 Field 在 Debug 的 时 候 非 常 有 用 ， 特 别 是 那些 需要 Reset Link 的 情 
况 ， 比 如 在 Link Reset 以 后 还 能 保存 之 前 的 错误 状态 ， 这 对 FW 以 及 上 层 
应 用 来 说 是 很 有 用 的 。Fundamental Reset 一 般 发 生 在 整个 系统 Reset 的 时 
fk (比如 重启 电脑 ) ， 但 是 也 可 以 只 针对 某 个 设备 做 Fundamental 
Reset. 








Fundamental Reset 有 两 种 : 

-Cold Reset: Power Off/On Device 的 Vcc (Vaux 一 直 在 ) 。 

"Warm Reset (Optional) : 保持 Vcc 的 情况 下 由 系统 触发 ， 比 如 改 
变 系 统 的 电源 管理 状态 可 能 会 触发 设备 的 Warm Reset, PCIeE LZ f XE 
义 具 体 如 何 触发 Warm Reset， 而 是 把 决定 权 交 给 系统 。 


有 两 种 方法 对 一 块 PCIe SSD 做 Fundamental Reset. 





系统 这 边 给 设备 发 PERST# (PCIe Express Reset) 信号 ， 以 图 5-59 
所 示 为 例 。 
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图 5-59 ”系统 上 电 产 生 PERST# 信 号 
1) 如 果 这 块 PCIe 设 备 支 持 PERST# 信 号 
一 个 系统 上 电 时 ， 主 电源 稳定 后 会 有 “Power Good” 信 和 号 


.这 时 ICH 就 会 发 PERST# 信 号 给 下 面 挂 的 PCIe SSD; 


:如 果 系 统 重 启 ，Power Good 信 号 的 变化 会 触发 PERST# 的 Assert 和 
De-Assert， 就 可 以 实现 PCIe 设 备 的 Cold Reset; 


:如 果 系 统 可 以 提供 Power Good 信 号 以 外 的 方法 触发 PERST#， 就 可 


以 实现 Warm Reset，PERST# 信 号 会 发 送 给 所 有 PCIe 设 备 ， 设 备 可 以 选 
择 使 用 这 个 信号 ， 也 可 以 不 理 它 ; 


2) 如 果 这 块 PCle 设 备 不 文 持 PERST# 信 号 
.上 电 时 它 会 自动 进行 Fundamental Reset; 








:那些 特 立 独行 ， 选 择 不 理 肯 PERST# 信 号 的 设备 ， 必 须 能 自己 触发 
Fundamental Reset。 比 如 ， 侦 测 到 3.3V 后 就 触发 Reset 〈 当 设备 发 现 供电 
超过 其 标准 电压 时 ， 必 须 触 发 Reset) 。 


Hot Reset: 通过 Assert TS1 的 Symbol 5 的 Bit[0] 实 现 ( 见 图 5-60) 。 


tr aining control 


0-De-assert Hot Reset 
l=Assert Hot Reset 
0-De-assert Disable Link 
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mc id 0-De-assert Loopback 


training control l=Assert Loopback 
6-15 . 0=De-assert Disable Scrambing 


1—Assert Disable Scrambing 
0-De-assert Compliance Receive 


I-Assert Compliance Receive 
图 5-60 TS1 中 的 Hot Reset 控 制 位 


PCIe 设 备 收 到 两 个 连续 的 带 Hot Reset 的 TS1 后 ， 经 过 2ms 的 
timeout: 








:LTSSM 经 过 Recovery 和 Hot Reset State， 最 终 停 在 Detect 
State (Link Training 的 初始 状态 〉; 


:设备 所 有 的 State Machine, WRZ Port State 和 Configuration 
Register (Sticky bit 除 外 ) 全 部 回 到 初始 值 。 


当 PCIe SSD 出 现 问 题 时 ， 可 以 通过 软件 触发 Hot Reset 使 其 恢复 ， 具 
体 方法 如 下 : 


.对 RC 的 Bridge Control Register Bit[6]-Secondary Bus Reset*;^1"; 


.RC 会 开始 发 带 Hot Reset 的 TS1; 


.2ms 后 设备 会 进入 Hot Reset 状 态 ， 此 时 LTSSM 的 状态 变化 是 
L0 > RCVRY > HOTRESET; 


.将 RC 的 Bridge Control Register Bit[6]-Secondary Bus Reset E, ix 
备 的 LTSSM 的 状态 变化 HOTRESET > DETECT; 


重新 开始 LTSSM 进 行 Link Training. 


这 个 我 觉得 有 点 像 SATA 里 面 主机 端 通过 Trigger OOB 去 修复 Link 上 
的 一 些 问 题 。 


软件 还 可 以 通过 设置 设备 的 Link Control Register 〈 链 路 控制 寄存 
#7) —Link disable bit 把 设备 disable 挥 〈 见 图 5-61) . 
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Link Disable 
[5-61 PCIe 链 路 控制 寄存 器 
当 设 备 的 Link Disable bit 被 置 上 以 后 ， 会 进入 LTSSM Recovery 


State， 开 始 向 RC 发 送 带 Disable bit 的 TS1 (这 个 动作 只 能 由 EP 发 起 ，RC 
端 这 个 bit 是 reserve 的 ) ， 如 图 5-62 所 示 。 


training control 


0-De-assert Hot Reset 
l-Assert Hot Reset 


0-De-assert Disable Link 
1—Assert Disable Link 


Rate ID 
0-De-assert Loopback 


2 1—Assert Loopback 
ED TSID . 0-De-assert Disable Scrambing 


l=Assert Disable Scrambing 
0-De-assert Compliance Receive 


l=Assert Compliance Receive 


图 5-62 TS1 中 的 Disable Link 控 制 位 


RC 端 收 到 这 样 的 TS1 以 后 ， 其 物理 层 会 发 送 LinkUp=0 的 信号 给 链 路 
层 ， 之 后 所 有 的 Lane 都 会 进入 Electrical Idle; 2ms timeout 后 ， SC 
LTSSM Detect mode， 但 是 设备 会 一 直人 停留 在 LTSSM 的 Disable 状 态 
竺 重出 江湖 的 那 一 天 。 


FLR (Function Level Reset) : PCIe Link 就 像 一 条 大 马路 ， 上 面 可 
以 跑 各 种 各 种 的 车 ， 这 些 车 束 是 不 同 的 Function。 如 果 某 个 Function 出 了 
问题 ， 当 然 可 以 通过 Reset 整 个 Link 的 方式 来 解决 ， 不 过 细腻 的 阿 采 不 会 
建议 采取 这 种 方法 ， 他 会 使 用 Function Level Reset， 哪 里 不 舒服 点 哪 
里 。 并 不 是 所 有 的 设备 都 文 持 FLR， 需 要 检查 Device Capabilities 
Register〈 设 备 能 力 寄存 器 ) 的 Bit28 进 行 确认 。 


如 果 设 备 文 持 FLR， 那 么 软件 就 可 以 通过 Device Control 
Register 〈 设 备 控 制 寄 存 器 ) 的 Bit15 来 进行 Function Reset 了 ，〈 见 图 5- 
64) 。 
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图 5-63 ”设备 能 力 寄存 占 
设备 控制 寄存 器 
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图 5-64 ”设备 控制 寄存 器 


FLR 会 把 对 应 Function 的 内 部 状态 ， 寄 存 器 重 置 ， 但 是 以 下 寄存 器 
不 会 受到 影 Dil : 


‘Sticky bits 


:HwInit 类 型 的 寄存 器 。 在 PCIe 设 备 中 ， 有 效 配 置 寄存 器 的 属性 为 
HwInit， 这 些 寄存 器 的 值 由 芯片 的 配置 引 脚 决定 ， ee 
EEPROM 中 获取 。Cold Reset 和 Warm Reset 可 以 复位 这 些 寄存 嚣 ， 多 人 
从 EEPROM 中 重新 获取 数据 ， 但 是 使 用 FLR 方 式 不 能 复位 这 些 寄存 器 


一 些 特殊 的 配置 寄存 器 。 比 如 Captured Powers ASPM Control, 
Max_Payload_Size 或 者 Virtual Channel。 


:FLR 不 会 改变 设备 的 LTSSM 状 态 。 


FLR 的 时 间 : 协议 规定 一 个 Function 的 Reset 需 要 在 100ms 内 完成 。 
但 是 软件 在 局 动 FLR 前 ， 要 注意 是 否 有 还 没完 成 的 CpID， 遇 到 这 种 情 
况 ， 要 么 等 这 些 CplD 完 成 再 开始 FLR， 要 么 启动 FLR 以 后 等 100ms 以 后 
再 重新 初始 化 这 个 Function。 这 种 情况 如 果 不 处 理 好 ， 可 能 会 导致 Data 
前 一 批 事务 要 求 的 数据 因为 FLR 的 影响 被 误 传 给 了 后 一 
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避免 这 种 情况 ， 阿 采 建 议 这 么 做 : 
.确保 其 他 软件 在 FLR 期 间 不 会 访问 这 个 Function; 
.把 Command Register 清 空 ， 让 Function 自己 竺 着; 
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Transactions Pending 
图 5-65 ”设备 状态 寄存 器 

轮 循 Device Status Register ORRA AA) 的 bit5 (Transactions 
Pending) 直到 被 Clear〈 这 个 bit= 1 代表 还 有 未 完成 的 CpID) ， 如 图 5-65 
所 示 ， 或 者 等 待 到 Completion Timeout 的 时 间 ， 如 果 Completion Timeout 
没有 被 Enable， 等 100ms; 

.初始 化 FLR 然 后 等 100ms; 

.重新 配置 Function 并 Enable。 

在 FLR 过 程 中 : 

.这 个 Function 对 外 不 能 被 使 用 ; 


:不 能 保留 之 前 的 任何 可 以 被 读 取 的 信息 《比如 内 部 的 Memory 需 要 
被 清 零 或 者 改写 ) ; 


.回复 要 求 FLR 的 Cfg Request， 并 开始 FLR:; 
.对 于 发 进来 的 TLP 可 以 回复 UC (Unexpected Completion). 或 者 直 
Ti; 


n 











FLR 应 该 在 100ms 之 内 完成 ， 但 是 其 后 的 初始 化 还 需要 人 花 一 些 时 


间 ， 在 初始 化 过 程 中 如 果 收 到 Cfg Request， 可 以 回复 
CRS (Configuration Retry Status) . 


阿 采 总 结 了 Reset 退 出 时 的 那些 事 : 
.从 Reset 状 态 退 出 后 ， 必 须 在 20ms 内 开始 Link Training: 


.软件 需要 给 Link 充 分 的 时 间 完 成 Link Training 和 初始 化 ， 至 少 要 等 
上 100ms 才 能 开始 发 送 Cfg Request; 


:如 果 软 件 等 了 100ms 开 始 发 Cfg Request， 但 是 设备 还 没 初始 化 完 
成 ， 设 备 会 回复 CRS; 

.这 时 RC 可 以 选择 重 发 Cfg Request 或 者 上 报 CPU 说 设备 还 没准 备 
好 ; 


:设备 最 多 可 以 有 1s 时 间 (从 PCI 那 继承 来 的 ) ， 之 后 必须 能 够 正常 
工作 ， 否 则 System/RC 则 可 以 认为 设备 挂 了 。 


5.11 PCIe Max Payload Size 和 Max Read Request 
Size 


3 13 3 /5]MAX. READ. REQUEST SIZEZI 
MAX. PAYLOAD SIZE. 


这 两 部 分 都 在 Device Control Register 〈 设 备 控 制 寄存 器 ) 里 ， 如 图 
5-66 所 示 ， 分 别 由 bit[14 : 12] 和 bit[7 : 5] 控 制 。 
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图 5-66 ”设备 控制 寄存 器 





1.Maximum Payload Size (简称 MPS) 


控制 一 个 TLP 可 以 传输 的 最 大 数据 长 度 。 作 为 接收 方 ， 必 须 能 处 理 
跟 MPS 设 定 大 小 相同 的 TLP 数 据 包 ， 作 为 传输 方 ， 不 允许 创建 超过 MPS 
设 定 的 TLP 数 据 包 。 


PCIe 协 议 允 许 一 个 最 大 的 Payload 可 以 到 4KB， 但 是 规定 了 在 整个 传 
输 路 径 上 的 所 有 设备 ， 都 必须 使 用 相同 的 MPS 设 置 ， 同 时 不 能 超过 该 路 
径 上 任何 一 个 设备 的 MPS 能 力 值 。 也 就 是 说 ，MPS Capability 高 的 设备 
要 迁 融 低 的 设备 。 以 PCIe SSD 来 说 ， 插 到 一 块 老 挥 牙 的 主板 上 (MPS 只 
有 128Byte) ， 你 的 Payload Size 再 大 ， 也 是 没有 用 的 。 


系统 的 MPS 值 设置 是 在 上 电 以 后 的 设备 枚 举 配置 阶段 完成 的 ， 以 主 
板 上 的 PCIe RC 和 PCIe SSD 为 例 ， 它 们 都 在 Device Capability Register 里 
声明 自己 能 支持 的 各 种 MPS，OS 的 PCIe 驱 动 侦 测 到 他 们 各 自 的 能 
值 ， 然 后 挑 低 的 那个 设置 到 两 者 的 Device Control Register 中 。 


PCIe SSD 上 自身 的 MPS capability 则 是 在 其 PCIe core 初 始 化 阶段 设置 


2.Maximum Read Request Size 


在 配置 阶段 ，OS 的 PCIe 驱 动 也 会 配置 男 外 一 个 参数 Maximum Read 
Request Size， 用 于 控制 一 个 Memory Read 的 最 大 Size， 最 大 4KB (以 
128Byte 为 单位 ) 。 








Read Request Size 是 可 以 大 于 MPS 的 ， 比 如 给 一 个 MPS=128Byte 的 
PCIe SSD 发 一 个 512Byte 的 Read Request，PCIe SSD 可 以 通过 返回 4 个 
128Byte 的 Cpld， 或 者 8 个 64Byte 的 Cpld 来 完成 这 个 Request 的 响应 。OS 层 
面 可 以 通过 控制 PCIe SSD 的 Maximum Read Request Size 参 数 ， 平 衡 多 个 
PCIe SSD 之 间 的 吞吐 量 ， 避 免 系统 带宽 〈 总 共 40 个 Lane) 被 某 些 SSD 霸 





同时 ，Read Request Size 也 对 PCIe SSD 的 Performance 有 影响 ， 这 个 
Size 太 小 ， 意 味 着 同样 的 Data， 需 要 发 送 更 多 的 Request 去 获取 ， 而 Read 
Request 的 TLP 是 不 市 任何 Data Payload 的 。 


举例 来 说 ， 要 传 64KB 的 数据 ， 如 果 Read Request=128Byte， 则 需要 
512 个 Read TLP，512 个 TLP 的 开销 可 是 不 小 的 。 


为 了 提高 特别 是 大 Block Size Data 的 传输 效率 ， 可 以 尽量 把 Read 
Request Size 设 得 大 一 点 ， 用 更 少 的 次 数 传递 更 多 的 数据 。 





5.12. PCIe SSD 热 插 拔 


PCIe SSD 最 早 是 Fusion-IO 推 出 来 的 ， 以 闪存 卡 的 形式 被 互联 网 公司 
和 数据 中 心 广泛 使 用 。 闪 存 卡 一 般 作为 数据 缓存 来 使 用 ， 如 果 要 在 服务 
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通过 PCIe 插 槽 供电 ， 单 卡 容 量 受到 限制 。 
在 PCIe 插 权 上 ， 容 易 出 现 由 于 散热 不 良 导 致 宕 机 的 问题 。 


:不 能 热 播 拔 。 如 宁 发 现 PCIe 闪 存 卡 有 故障 ， 必 须要 停止 服务 ， 关 
财 服务 器 ， 打 开机 箱 ， 拔 出 闪存 卡 。 这 对 有 成 百 上 千 台 服务 器 的 数据 中 
心 来 说 ， 管 理 成 本 非常 高 。 


所 以 ， 如 图 5-67 所 示 ，PCIe SSD 推 出 了 新 的 硬件 形式 SFF-8639， 又 
称 U.2。U.2PCIe SSD 类 似 于 传统 的 盘 位 式 SATA、SAS 硬 盘 ， 可 以 直接 
从 服务 器 前 面板 热 插 拔 。 








图 5-67” 热 插 拔 示意 图 (本 图 来 源 于 Oracle NVMe SSD 热 插 拔 说 明 ) 


当 服 务 器 有 很 多 个 可 以 热 插 拔 的 U.2SSD 之 后 ， 存 储 密度 大 为 提 
升 ， 更 重要 的 是 ，U.2SSD 不 只 可 以 用 作 数 据 缓 存 ， 关 键 数据 也 可 以 放 
在 其 中 。 通 过 多 个 U.2SSD 组 成 RAID 阵 列 ， 当 某 个 U.2SSD 故 障 之 后 ， 可 
以 通过 前 面板 显示 灯 确 定 故障 SSD 盘 位 ， 予 以 更 换 。 同 时 ， 不 会 造成 服 
务 器 停止 服务 或 者 数据 丢失 。 


目前 有 很 多 服务 器 三 商都 发 布 了 有 很 多 U.2SSD 盘 位 的 服务 器 ， 有 
的 是 少数 U.2SSD 和 多 数 SATA HDD 混 合 ， 有 的 甚至 是 24 个 纯 U.2SSD 盘 
位 。 配 备 了 高 密度 SSD 的 服务 器 对 数据 中 心 来 说 ， 可 以 大 幅 减 少 传统 服 
务 器 的 数量 ， 因 为 很 多 企业 应 用 对 存储 容量 要 求 并 不 高 ， 传 统 机 械 人 硬盘 
阵列 的 容量 很 大 ， 却 处 于 浪费 状态 。 企 业 对 硬盘 带宽 的 要 求 更 高 ， 一 台 
SSD 阵 列 服务 器 能 够 支持 的 用 户 数 是 HDD 阵 列 服务 器 的 好 几 倍 ， 功 耗 和 
制冷 成 本 却 少 了 好 几 倍 。 目 前 ， 房 租 和 土地 成 本 越 来 越 高 ， 能 够 在 有 限 
的 数据 中 心 空间 中 为 大 量 用 户 提供 服务 ， 对 电信 、 视 频 网 站 、 互 联网 公 
司 等 企业 来 说 非常 重要 。 所 以 可 以 预期 ， 随 着 闪存 价格 的 逐年 下 降 ， 配 
备 SSD 阵 列 的 服务 器 会 越 来 越 普 及 。 


我 们 来 看 看 PCIe SSD 热 插 拔 的 技术 实现 。 传 统 SATA、SAS 人 硬盘 通 
过 HBA 和 主机 通信 ， 所 以 也 是 通过 HBA 来 管理 热 插 拔 。 但 是 ，PCIe 
SSD 直 接连 到 CPU 的 PCIe 控 制 器 ， 热 插 拔 需要 驱动 直接 管理 。 根 据 
Memblaze 公 司 公 众 号 的 介绍 ， 一 般 热 插 拔 PCIe SSD 需 要 几 方 面 的 文 
持 : 

















:PCIe SSD: 一 方面 需要 人 硬件 文 持 ， 避 免 $SD 在 插 盘 过 程 中 产生 电 
流 波峰 导致 器 件 损坏 ; 另 一 方面 ， 控 制 器 要 能 自动 检测 到 拔 盘 操作 ， 避 
免 数 据 因 掉 电 而 丢失 。 


:服务 器 背 板 PCIe SSD 插 槽 : 需要 通过 服务 器 三 家 了 解 是 人 否 文 持 
U.2SSD 热 插 拔 。 


-操作 系统 : 要 确定 热 插 拔 是 操作 系统 还 是 BIOS 处 理 的 ， 也 需要 咨 
询 服务 器 主板 广 家 来 确定 。 


:PCIe SSDJEzJ/j:: 不 管 是 Linux 内 核 目 带 的 NVMe 驱 动 ， 还 是 厂家 提 
供 的 驱动 ， 都 需要 在 各 种 使 用 环境 中 做 过 大 量 热 插 拔 稳定 性 测试 ， 避 免 
在 实际 操作 中 因为 驱动 问题 导致 系统 裔 让。 














JR tHPCIe SSD 的 基本 流程 如 下 : 


1) 配置 应 用 程序 ， 停 止 所 有 对 目标 SSD 的 访问 。 如 果 某 个 程序 打 
开 了 该 SSD 中 的 某 个 目录 ， 也 需要 退出 ; 


2) umount 目 标 SSD 上 的 所 有 文件 系统 ; 


3) 有 些 SSD 广 家 会 要 求 印 载 SSD 驱 动 程序 ， 从 系统 中 删除 已 注册 的 
块 设备 和 disk; 


4) 拔 出 SSD。 








5.13 SSD PCIe 链 路 性 能 损耗 分 析 
下 面 介绍 PCIe SSD 在 PCIe 协 议 层面 导致 性 能 损耗 的 因素 。 


1.Encode 和 Decode 


这 个 就 是 我 们 通常 说 的 8/10 转 换 (Gen3 是 128/130， 但 是 道理 一 
样 ) ， 简 单 来 说 就 是 对 数据 重新 编码 ， 从 而 保证 链 路 上 实际 传输 的 时 
候 “12 和 “0 的 总 体 比 例 相 当 ， 且 不 要 过 多 连续 的 “1? 或 <0”。 同 时 把 时 钟 
信息 仍 入 数据 流 ， 避 免 高 频 时 钟 信 号 产生 EMI 的 问题 。Gen1 或 者 Gen2， 
正常 的 1 个 Byte 数 据 ， 经 过 8bit/10bit 转 换 在 实际 物理 链 路 上 传输 的 时 候 
就 变 成 了 10bit， 也 就 是 一 个 Symbol，8bit/10bit 转 换 会 带 来 20% 的 性 能 损 
耗 。 对 Gen3， 由 于 是 128/130 编 码 ， 这 部 分 性 能 损耗 可 以 忽略 。 


2.TLP Packet Overhead 


PCIe SSD 通 过 MemWr 或 者 CplD 这 两 种 TLP 与 主机 传输 数据 ， 从 图 
5-68 中 可 以 看 出 ， 整 个 TLP 里 Payload 是 有 效 的 传输 Data， 而 PCIe 协 议 在 
外 面 穿 了 一 层 义 一 层 的 衣服 ，Transaction Layer (事务 层 或 传输 层 ) 、 
Link Layer〈 链 路 层 ) 和 PHY (物理 层 ) 分 别 在 数据 包 (Payload) 外 增 
加 了 不 少 东 西 。PCIe 必 须 靠 这 些 东 西 来 保证 传输 的 可 靠 性 。 


物理 层 ”数据 链 路 层 事务 层 数据 链 路 层 ”物理 层 


aa LM LLL La 一 


l Byte 2 Bytes 12 or 16 Bytes 0-4096 Bytes 4 Bytes 4 Bytes l Byte 


图 5-68 PCIe 2.0TLP 格 式 














Transaction Layer: TLP Header. ECRC; Data Link Layer: 
Sequence, LCRC; PHY Layer: Start、End 这 些 七 七 八 八 的 加 起 来 ， 大 
概 每 个 TLP 会 带 来 20 一 30Byte 的 额外 开销 。 


3.Traffic Overhead 


PCIe 协 议 为 了 进行 时 钟 偏差 补偿 ， 会 发 送 Skip， 作 用 有 点 像 SATA 
协议 的 ALIGN。Gen1/Gen2 一 个 Skip 是 4Byte，Gen3 是 16Byte，Skip 是 定 


期 发 送 的 ， 以 Gen2 为 例 ， 每 隔 1538 个 symboltime (symbol time 就 是 PCIe 
Link 上 发 送 一 个 Byte 需 要 花费 的 时 间 ) 就 必须 发 一 个 。PCIe 协 议 不 允许 
在 TLP 中 间 插 入 Skip Order-set， 只 能 在 两 个 TLP 的 间隔 中 间 发 ， 这 也 会 

市 来 损耗 。 


4.Link Protocol Overhead 


PCIe 是 个 有 态度 的 协议 ，RC (主机 ) 和 EP (PCIe SSD) 之 间 发 送 
的 每 一 个 TLP， 都 需要 对 方 告 知 接收 的 情况 。 


以 主机 传输 数据 给 SSD 为 例 : 


主机 发 送 一 个 MemWr 的 TLP 以 后 ， 会 把 这 个 TLP 存 在 自己 这 边 Data 
Link Layer Replay Buffer 里 ， 同 时 等 SSD 回 复 。 


.SSD 收 到 这 个 TLP 以 后 ， 如 果 没 问题 ， 就 回复 ACK。 


:主机 收 到 ACK 以 后 就 知道 Replay Buffer 备 份 的 TLP 没 用 了 ， 可 以 用 
Ja S BUTLPZS H. 


.SSD 收 到 TLP 如 果 发 现 有 问题 ， 比 如 说 LCRC 错 误 ， 就 回复 NAK。 


:主机 收 到 NAK 以 后 就 把 Replay Buffer 里 的 TLP 拿 出 来 ， 再 发 给 SSD 
一 次 


.SSD 再 检查 ， 然 后 再 回复 ACK。 


有 态度 是 要 付出 代价 的 ，ACK 和 NAK 的 发 送 本 身 也 会 造成 性 能 损 
耗 ， 另 外 这 里 还 要 一 个 平衡 需要 掌握 : PCIe 要 求 每 一 个 TLP， 都 需要 对 
方 发 送 ACK 确 认 ， 但 是 允许 对 方 接收 几 个 TLP 以 后 再 发 一 个 ACK 确 认 ， 
这 样 可 以 减少 ACK 发 送 的 数量 ， 对 性 能 有 所 帮助 。 但 是 这 个 连续 发 送 
TLP 的 数量 也 不 能 太 多 ， 因 为 Replay buffer 是 有 限 的 ， 一 旦 满 了 后 面 的 
TLP 束 不 能 发 送 了 。 








5.Flow control 


PCle 是 个 有 腔调 的 协议 ， 自 市 一 个 流 控 机 制 ， 目 的 是 防止 接收 方 


receiver buffer overflow. 


RC 跟 EP 之 间 通 过 交换 一 种 叫 UpdateFC 的 DLLP 来 告知 对 方 自己 目前 
receive buffer 的 情况 ， 显 然 发 送 这 个 也 会 占用 带宽 ， 从 而 对 性 能 产生 影 
啊 。 


跟 ACK 类 似 ，UpdateFC 的 发 送 需 要 考虑 频率 问题 ， 更 低 的 频率 对 
性 能 有 好 处 ， 但 是 要 求 设备 有 较 大 的 receiver buffer. 


6.System Parameters 


System Parameters 主 要 有 三 个 ，MPS (Max Payload Size) . Max 
Read Request Size 和 RCB (Read Completion Boundary) ， 前 两 个 前 面 已 
经 介绍 过 了 ， 这 里 简单 说 一 下 RCB。 


看 PCIe Trace 时 候 ， 经 常 遇 到 的 情况 是 ，PCIe SSD 回 主机 友 了 一 个 
MemRd 的 TLP 要 求 数据 ， 虽 然 MPS 是 256Byte 甚 至 是 512Byte， 结 果 主 机 
回复 了 一 堆 的 64Byte 或 者 128Byte 的 CplD 。 





导致 这 个 情况 的 原因 就 是 RCB，RC 人 允许 使 用 多 个 CplD 回 复 一 个 
Read Request， 而 这 些 回复 的 CplD 通 常 以 64Byte 或 128Byte 为 单位 (也 有 
32Byte 的 ) ， 原 则 就 是 在 Memory 里 做 到 地 址 对 齐 。 

研究 完 这 些 因 素 ， 需 要 量化 计算 。 


下 面 用 一 个 公式 说 明 : 








Bandwidth=[ (Total Transfer Data Size) / (Transfer Time) | 
已 知 条 件 : 

:2004* MemWr TLP; 

:'MPS-128; 

PCIe Gen1x8. 

准备 活动 : 


计算 Symbol Time，2.5Gbps 换 算 成 1 个 Byte 传 输 时 间 是 4ns; 


.8 个 Lane， 所 以 每 4ns 可 以 传输 8 个 Byte; 


:ITLP 传 输 时 间 : [ C128Bytes Payload+20Byte 
overhead) /8Byte/Clock]x[4ns/Clock]-74ns; 


.DLLP 传 输 时 间 : [8Bytes/8Byte/Clock]x[Ans/Clock]-4ns. 
假设 : 

每 5 个 TLP 回 复 1 个 ACK:; 

:每 4 个 TLP 发 送 一 个 FC Update. 

正式 计算 

:总 共 的 数据 : 200x128Byte=25600Byte; 

:传输 时 间 : 200x74ns+40x4ns+50x4ns=15160ns; 

-性 能 :25600Bytes/15160ns=1689MB/s。 


可 将 MPS 调 整 到 了 512B。 重 新 计算 结果 增加 到 了 1912MB/s， 看 
到 这 个 数字 可 知 ， 以 前 的 SATA SSD 可 以 退休 了 。 


以 上 的 例子 是 以 MemWr 为 例 ， 而 使 用 MemRd 的 时 候 ， 情 况 略 有 不 
E]: MemWr 的 TLP 自 带 Data Payload， 而 MemRd 是 先 发 一 个 Read 
Request TLP， 而 后 对 方 回 复 CplD 进 行 Data 传 输 ， 而 CplD Payload 的 Size 
则 会 受到 RCB 的 影响 。 


6g NVMe 介 绍 
6.1 AHCI 到 NVMe 


HDD 和 早期 的 SSD 绝 大 多 数 都 是 使 用 SATA 接 口 ， 跑 的 是 
AHCI (Advanced Host Controller Interface) ， 它 是 由 Intel 联 合 多 家 公司 
研发 的 系统 接口 标准 。AHCI 文 持 NCQ (Native Command Queuing) 功 
能 和 热 插 拔 技术 。NCQ 最 大 深度 为 32， 即 主机 最 多 可 以 发 32 条 命令 给 
PEN 跟 之 前 人 硬盘 只 能 逐条 命令 执行 相 比 ， 便 盘 性 能 大 幅 
JL. 


在 HDD 时 代 或 者 SSD 早 期 ，AHCI 协 议和 SATA 接 口 足够 满足 系统 性 
能 需求 ， 因 为 整个 系统 的 性 能 瓶颈 在 硬盘 端 〈 低 速 ， 高 延 时 ) ， 而 不 是 
在 协议 和 接口 端 。 然 而 ， 随 着 SSD 技 术 的 飞速 发 展 ，SSD 盘 的 性 能 遍 
升 ， 底 层 内 存 带 宽 越 来 越 宽 ， 介 质 访问 延 时 越 来 越 低 ， 系 统 性 能 瓶颈 已 
经 由 下 转移 到 上 面 的 接口 和 协议 处 了 。AHCI 和 SATA 己 经 不 能 满足 高 性 
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时 势 造 英 雄 ， 在 这 样 的 背景 下 ，NVMe 横 空 出 世 。2009 年 下 半年 ， 
在 带头 大 哥 Intel 的 领导 下 ， 美 光 、 戴 尔 、 三 星 、Marvell 等 巨头 ， 一 起 制 
定 了 专门 为 SSD 服 务 的 NVMe 协 议 ， 旨 在 将 SSD 从 老 旧 的 SATA 和 AHCI 
中 解放 出 来 。 


何 为 NVMe? NVMe 即 Non-Volatile Memory Express， 是 非 易 失 性 存 
储 器 标准 ， 是 跑 在 PCIe 接 口上 的 协议 标准 。NVMe 的 设计 之 初 就 有 充分 
利用 了 PCIe SSD 的 低 延 时 以 及 并 行 性 ， 还 有 当代 处 理 器 、 平 台 与 应 用 的 
并 行 性 。 相 比 现在 的 AHCI 标 准 ，NVMe 标 准 可 以 带 来 多 方面 的 性 能 提 
升 。NVMe 为 SSD 而 生 ， 但 不 局 限于 以 内 存 为 媒介 的 SSD， 它 同样 可 以 
应 用 在 高 性 能 和 低 延 时 的 3D XPoint 这 类 新 型 的 介质 上 。 


首 款 支持 NVMe 标 准 的 产品 是 三 星 XS1715， 于 2013 年 7 月 发 布 。 随 
后 陆续 有 企业 级 的 NVMe 标 准 SSD 推 出 。2015 年 Intel 750 发 布 ， 标 志 着 
NVMe 标 准 的 产品 开始 进入 消费 级 市 场 。 如 今 市 面 上 已 经 出 现 很 多 
NVMe SSD 产 品 ， 包 括 企 业 级 和 消费 级 ， 如 果 说 前 几 年 NVMe SSD 是 阳 
春 白 雪 ， 现 如 今 已 是 下 里 巴 人 ，NVMe SSD 已 慢 慢 进入 寻常 百姓 家 。 




















需要 指出 的 是 ， 在 移动 设备 上 ，NVMe 也 占有 一 席 之 地 。 苹 果 自 
iPhone 6s 开 始 ， 其 存储 设备 上 跑 的 就 是 NVMe 协 议 标 准 。 未 来 移动 存储 
的 方 同 ， 笔 者 认为 不 是 UFS， 当 然 更 不 会 是 eMMC， 而 是 NVMe， 拭 卓 
以 待 吧 。 


那么 ，NVMe 究 竞 有 什么 好 ? 跟 AHCI 相 比 ， 它 有 哪些 优势 ? 
NVMe 和 AHCI 相 比 ， 它 的 优势 主要 体现 在 以 下 几 点 : 
1. 低 时 延 (Latency) 


| E 存储 介质 本 号 、 控 制 器 以 及 软件 接 
口 标准 。 


.存储 介质 层面 ， 闪 存 (Flash) 比 传统 机 械 硬 盘 速度 快 太 多 了 。 


.控制 器 方面 ， 从 SATA SSD 发 展 成 PCIe SSD， 原 生 PCIe 主 控 与 CPU 
直接 相连 ， 而 不 像 传统 方式 ， 要 通过 南 桥 控制 器 中 转 再 连接 CPU， 因 此 
基于 PCIe 的 SSD 时 延 更 低 。 


.软件 接口 方面 ，NVMe 缩 短 了 CPU 到 SSD 的 指令 路 径 ， 比 如 NVMe 
减少 了 对 寄存 器 的 访问 次 数 ， 使 用 了 MSI-X 中 断 管 理 ， 并 行 && 多 线程 优 
化 NVMe 减 少 了 各 个 CPU 核 之 间 的 锁 同步 操作 等 。 





所 以 基于 PCIe+rNVMe 的 SSD 具 有 非常 低 的 延 时 ， 如 图 6-1 所 示 。 


时 延 : 微 秒 
10 000 


100 


175 - 基于 闪存 的 SSD 时 延 是 传统 HDD 的 1/100 


100 NVMe 减少 了 20us 的 时 延 


50 基于 3D XPoint 的 SSD 是 基于 闪存 SSD 时 延 的 1/10 





0 
HDD+ SSDNAND SSD 3D XPoint™ Bop 看 接口 控制 器 时 延 软件 时 延 
SAS/SATA-SAS/SATA NAND SSD-NVMe 


*TNVMe 


图 6-1 时 延 对 比 
2. 高 性 能 CThroughput&IOPS) 


理论 上 ，IOPS= 队 列 深 度 /IO 延迟 ， 故 IOPS 的 性 能 与 队列 深度 有 较 
大 的 关系 (但 IOPS 并 不 与 队列 深度 成 正比 ， 因 为 实际 应 用 中 ， 随 着 队列 
深度 的 增加 ，IO 延 迟 也 会 提高 ) 。 市 面 上 性 能 不 错 的 SATA 接 口 SSD， 
在 队列 深度 上 都 可 以 达到 32， 然 而 这 也 是 AHCI 所 能 做 到 的 极限 。 但 目 
前 高 端的 企业 级 PCIe SSD， 其 队列 深度 可 能 要 达到 128， 甚 至 是 256 才 能 
够 发 挥 出 最 高 的 IOPS 性 能 。 而 在 NVMe 标 准 下 ， 最 大 的 队列 深度 可 达 
64K。 此 外 ，NVMe 的 队列 数量 也 从 AHCI 的 1， 提 高 到 了 64K。 


PCIe 接 口 本 身 在 性 能 上 碾 压 SATA， 再 加 上 NVMe 具 有 比 AHCI 更 
深 、 更 宽 的 命令 队列 ，NVMe SSD 在 性 能 上 秒杀 SATA SSD 是 水 到 渠 成 
的 事情 。 图 6-2 是 NVMe SSD, SAS SSD 和 SATA SSD 的 性 能 对 比 图 。 


Bi PCIe/NVMe 
B SAS 12 Gb/s dual port 





SATA 6 Gb/s 
4K 随机 负载 ，QD=128 顺序 负载 ，QD=128 

500 000 3 000 

400 000 2 500 

300 000 za 

IOPS MB/s 1 500 
200 000 

1 000 

100 000 B 500 

0 | À 0 

100% È} 70% 读 0% 读 100% ix: 0% 读 


图 6-2 NVMe，SAS 和 SATA SSD 性 能 对 比 图 
3.[& UJ] FE 


NVMe 加 入 了 目 动 功 耗 状态 切换 和 动态 能 耗 管理 功能 ， 有 具体 在 本 书 
的 第 8 章 会 介绍 ， 这 里 不 再 更 述 。 


下 面 大 部 分 章节 来 源 于 www.ssdfans.com 的 《和 蛋 蛋 读 NVMe》 系 
列 。 另 外 ， 最 新 NVMe 协 议 标 准 是 NVMe1.3， 但 本 章 是 基于 NVMe1.2 写 
的 ， 请 读者 知晓 。 














62 NVMe 综 述 


NVMe 是 一 种 主机 (Host) 与 SSD 之 间 通 信 的 协议 ， 它 在 协议 栈 中 


隶属 高 屋 ， 如 图 6-3 所 示 。 


数据 链 路 层 





PCle 


图 6-3 NVMe 处 于 协议 栈 的 最 高 层 


NVMe 作 为 命令 层 和 应 用 层 协议 ， 理 论 上 可 以 适 配 在 任何 接口 协议 
上 。 但 NVMe 协 议 的 原配 是 PCIe， 因 此 如 无 特别 说 明 ， 后 面 章节 都 是 基 
于 NVMe+PCIe。 


NVMe 在 协议 栈 中 处 于 应 用 层 或 者 命令 层 ， 它 是 指挥 官 、 军 师 ， 相 
当 于 三 国 时 期 诸葛 亮 的 角色 , “运筹 帷 帼 之 中 ， 决 胜 千 里 之 外 ”。 军 师 设 
计 好 计谋 ， 就 交 由 手下 五 虎 大 将 去 执行 。NVMe 的 手下 大 将 就 是 PCIe， 
它 所 制定 的 任何 命令 ， 都 交 由 PCIe 去 完成 。 虽 然 NVMe 的 命令 也 可 以 由 
别 的 接口 完成 ， 但 NVMe 与 PCIe 合 作 形成 的 战斗 力 无 疑 是 最 强 的 。 


NVMe 是 为 SSD 所 生 的 。NVMe 出 现 之 前 ，SSD 绝 大 多 数 用 的 是 
AHCI 加 SATA 的 组 合 ， 后 者 其 实 是 为 传统 HDD 服 务 的 。 与 HDD 相 比 ， 
SSD 具 有 更 低 的 延 时 和 更 高 的 性 能 ，AHCI 已 经 不 能 跟 上 SSD 性 能 发 展 的 
步伐 ， 而 是 成 为 了 制约 SSD 性 能 的 瓶颈 。 所 有 SATA 接 口 的 SSD， 你 去 
看 性 能 参数 ， 会 发 现 都 不 会 超过 600MB/s (或 者 说 都 不 超过 
560MB/s) . 








如 果 磁 到 有 人 跟 你 说 他 的 SATA SSD 读 取 性 能 可 以 超过 600MB/s， 
直接 拨打 12315 投 诉 。 不 是 底层 闪存 带 宽 不 够 ， 是 SATA 接 口 速度 限制 了 
带宽 ， 因 为 SATA 3.0 最 高 带宽 就 是 600MB/s， 而 且 不 会 再 有 SATA 4.0 
了 ， 如 图 6-4 所 示 。 














PCle 


8Gbps( x 2) | 16Gbps( x 2) 
I 6Gbps( x 4) | 32Gbps( x 4) 


链 路 速度 6Gbps 


有 效 数据 速率 | 约 275MB/s | 约 560MB/s 


图 6-4 SATA 和 PCIe 接口 速度 对 比 


好 吧 ， 既 然 SATA 接 口 速 度 太 慢 ， 那 么 用 PCIe 好 了 ， 不 过 上 层 协 议 
还 是 AHCI。 五 虎 上 将 有 了 ， 由 刘备 指挥 ， 让 人 不 禁 感叹 暴 珍 天 物 呀 。 
刘备 什么 水 平 ， 诸 葛 亮 出 现 之 前 ， 居 无 定 所 ， 一 会 跟着 曹操 混 ， 一 会 又 
跟着 吕布 混 ， 谁 肯 收 留 就 跟 谁 混 ， 惨 呀 ! AHCI 和 刘备 一 个 德行 ， 只 有 
一 个 命令 队列 ， 最 多 同时 只 能 发 32 条 命令 ，HDD 时 代 《〈 群 雄 逐 鹿 ) 还 能 
混混 ，SSD 时 代 “〈 三 足 易 立 ) 就 只 有 被 灭 的 份 。 刘 备 需要 三 顾 苯 庐 ， 请 
诸葛 亮 出 山 辅佐 。 同 样 ，SSD 需 要 PCIe， 更 需要 NVMe。 


在 这 样 的 背景 下 ， Intel 等 巨头 携 天 子 以 令 诸侯 ， 集 大 家 的 智慧 ， 介 
定 出 了 NVMe 规 范 ， 目 的 就 是 释放 SSD 性 能 潜力 ， 解 SSD 倒 悬 之 苦 。 最 
初 制 定 NVMe 规 范 的 主要 公司 如 图 6-5 所 示 。 
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图 6-5 “最 初 制 定 NVMe 规 范 的 主要 公司 


NVMe 制 定 了 主机 与 SSD 之 间 通 信 的 命令 ， 以 及 命令 如 何 执行 的 。 





NVMe 有 两 种 命令 ， 一 种 叫 Admin 命 令 ， 用 以 主机 管理 和 控制 SSD; 5 
外 一 种 就 是 IO 命令 ， 用 以 主机 和 SSD 之 间 数 据 的 传输 ， 如 图 6-6 所 示 。 


IO 命令 集 
保留 || 保留 
a1 #2 





图 6-6 NVMe 命 令 集 


NVMe 支 持 的 Admin 命 令 如 图 6-7 所 示 。 


命令 必须 还 是 可 选 
Create I/O Submission Queue 
Delete I/O Submission Queue - 
; m Queue /E JE 
Create I/O Completion Queue 
Delete I/O Completion Queue 必须 
Get Log Page 必须 RT. 
Em 汇报 状态 信息 
Asynchronous Event Request 
Firmware Image Download 可 选 TUR 
mm 固件 更 新 /管理 
LO Command Set Specific Commands LO 命令 集 特有 
Vendor Specific Commands 商家 特有 


图 6-7 NVMeAdmin 命 令 集 
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图 6-8 NVMe NVM 命 令 集 


跟 ATA 规 范 中 定义 的 命令 相 比 ，NVMe 的 命令 个 数 少 了 很 多 ， 完 全 
是 为 SSD 量 身 定 制 的 。 在 SATA 时 代 ， 即 使 只 VEHDDZ ERU A. 
(SSD 上 其 实 完全 没有 必要 ) ， 但 为 了 符合 协议 标准 ，SSD 还 是 需要 实 
现 那些 守 无 意义 〈 完 全 只 (是 为 了 兼容 性 ) 的 命令 。 没有 办 法 ， 谁 叫 你 
SSD 寄 人 篇 下 呢 。NVMe 让 SSD 扬 眉 吐 气 了 一 把 。 


大 家 现在 别 纠结 于 具体 的 命令 ， 了 解 一 下 就 好 。 本 章 则 在 授 之 
以 “ 渔 ?， 而 非 * 鱼 ”， 因 此 不 会 介绍 具体 的 NVMe 命 令 ， 不 会 把 协议 命令 
POLAE fi Ii o 


命令 有 了 ， 那 么 ， 主 机 又 是 怎么 把 这 些 命令 发 送 给 SSD 执 行 呢 ? 








NVMe 有 三 宝 : Submission Queue (SQ) 、Completion 
Queue (CQ) 和 Doorbell Register (DB) 。SQ 和 CQ 位 于 主机 的 内 存 中 ， 


DB 则 位 于 SSD 的 控制 器 内 部 ， 如 图 6-9 所 示 。 


这 张 图 信息 量 比 较 大 ， 除 了 让 我 们 知道 SQ 和 CQ 在 主机 的 内 存 
(Memory) 中 以 及 DB 在 SSD 端 外 ， 而 且 让 我 们 对 一 个 PCIe 系 统 有 一 个 
直观 的 认识 。 图 6-9 中 的 NVMe 子 系统 一 般 就 是 SSD。 请 看 这 张 图 几 秒 
钟 ， 然 后 团 上 眼 ， 脑 补 SSD 所 处 的 位 置 SSD 作 为 一 个 PCIe 
Endpoint (EP) 通过 PCIe 连 着 Root Complex (RC) ， 然 后 RC 连接 着 
CPU 和 内 存 。RC 是 什么 ?我 们 可 以 认为 RC 就 是 CPU 的 代言 人 或 者 助 
理 。 作 为 系统 中 的 最 高 屋 ，CPU 说 : “我 很 忙 的 ， 你 SSD 有 什么 事情 先 
跟 我 助理 说 ! ”尽管 如 此 ，SSD 的 地 位 还 是 较 过 去 提升 了 一 级 ， 过 去 SSD 
别 说 直接 接触 霸道 总 裁 ， 就 是 连 助理 的 面 都 见 不 到 ，SSD 和 助理 之 间 还 
隔 着 一 座 南 桥 。 


回 到 我 们 的 “吉祥 三 宝 ”(SQ、CQ、DB) 。SQ 位 于 主机 内 存 中 ， 
主机 要 发 送 命令 时 ， 先 把 准备 好 的 命令 放 在 SQ 中 ， 然 后 通知 SSD 来 取 ; 
CQ 也 是 位 于 主机 内 存 中 ， 一 个 命令 执行 完成 ， 成 功 或 失败 ，SSD 总 会 
往 CQ 中 写 入 命令 完成 状态 。DB CKE) 又 是 干什么 用 的 呢 ? 主机 发 送 
命令 时 ， 不 是 直接 往 SSD 中 发 送 命 令 ， 而 是 把 命令 准备 好 放 在 自己 的 内 
存 中 ， 那 怎么 通知 SSD 来 获取 命令 执行 呢 ?” 主 机 束 是 通过 写 SSD 端 的 大 
宝 寄 存 右 来 告知 SSD 的 。 
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NVME 子 系统 : 
1) 控制 需 ; 

2) 非 挥发 性 存储 
介质 (如 闪存 ); PCle Endpoint 
3 ) PCle 接口 。 


图 6-9 SQ、CQ 和 DB 在 系统 中 的 位 置 
我 们 来 看 看 NVMe 是 如 何 处 理 命令 的 ， 如 图 6-10 所 示 。 
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图 6-10 ”NVMe 命 令 处 理 流程 

说 ， 把 大 象 放 冰箱 一 共 要 几 步 ? 
答 : 三 步 。 

一 步 ， 打 开 冰 箱 门 ; 

二 步 ， 放 进 大 象 ; 
第 三 步 ， 关 上 冰箱 门 。 
说 ，NVMe 处 理 命令 需要 几 步 ? S: AGE. 
第 一 步 ， 主 机 写 命令 到 SQ:; 
第 二 步 ， 主 机 写 SQ 的 DB， 通 知 SSD 取 指 ; 
第 三 步 ，SSD 收 到 通知 后 ， 到 SQ 中 取 指 ; 


第 四 步 ，SSD 执 行 指令 ; 


第 五 步 ， 指 令 执 行 完成 ，SSD 往 CQ 中 写 指令 执行 结 
第 六 步 ， 然 后 SSD 肥 中 断 通 知 主机 指令 完成 ; 
第 七 步 ， 收 到 中 断 ， 主 机 处 理 CQ， 碍 看 指令 完成 状态 ; 


第 八 步 ， 主 机 处 理 完 CQ 中 的 指令 执行 结果 ， 通 过 DB 回复 SSD: 指 
令 执 行 结果 已 处 理 ， 辛 苦 您 了 |! 


6.3 吉祥 三 宝 ， SQ、CQ 和 DB 
接 下 来 我 们 来 详细 看 看 NVMe 的 吉祥 三 宝 。 


主机 往 SQ 中 写 入 命令 ，SSD 往 CQ 中 写 入 命令 完成 结果 。SQ 与 CQ 的 
关系 ， 可 以 是 一 对 一 的 关系 ， 也 可 以 是 多 对 一 的 关系 ， 但 不 管 怎样 ， 它 
们 是 成 对 的 : 有 因 就 有 果 ， 有 SQ 就 必然 有 CQ。 


有 两 种 SQ 和 CQ， 一 种 是 Admin， 另 外 一 种 是 IO， 前 者 放 Admin 命 
令 ， 用 以 主机 管理 控制 SSD， 后 者 放置 IO 命令 ， 用 以 主机 与 SSD 之 间 传 
输 数 据 。Admin SQ/CQ 和 IO SQ/CQ 各 司 其 职 ， 你 不 能 把 Admin 命 令 放 到 
IO SQ 中 ， 同 样 ， 你 也 不 能 把 IO 命令 放 到 Admin SQ 里 面 。IO SQ/CQ 不 是 

- 生 下 来 就 有 的 ， 它 们 是 通过 Admin 命 令 创 建 的 。 


正如 图 6-11 所 示 ， 系 统 中 只 有 1 对 Admin SQ/CQ， 它 们 是 一 一 对 应 
的 关系 ; IO SQ/CQ 却 可 以 有 很 多 ， 多 达 65535 对 (64K 减 去 1 对 Admin 
SQ/CQ) . 














需要 指出 的 是 ， 对 NVMe over Fabrics，SQ 和 CQ 的 关系 只 能 是 一 对 
一 ; IO SQ/CQ 也 不 是 通过 Admin 命 令 创 建 的 。 


主机 端 每 个 CPU 核 〈Core) 可 以 有 一 个 或 者 多 个 SQ， 但 只 有 一 个 
CQ。 给 每 个 CPU 核 分 配 一 对 SQ/CQ 好 理解 ， 为 什么 一 个 CPU 核 中 还 要 
多 个 SQ 呢 ? 一 是 性 能 需求 ， 一 个 CPU 核 中 有 多 线程 ， 可 以 做 到 一 个 线 
程 独 享 一 个 SQ; 二 是 QoS 需求 ， 什 么 是 QoS? Quality of Service， 服 务 质 
量 。 脑 补 一 个 场景 ， 蛋 和 蛋 一 边 看 小 电影 ， 同 时 在 后 台 用 迅雷 下 载 小 电 
影 ， 由 于 电脑 配置 差 ， 看 个 小 电影 都 卡 。 和 指 香 不 要 卡 顿 ! 怎么 办 ? 
NVMe 建 议 ， 你 设置 两 个 JQ， 一 个 赋予 高 优先 级 ， 一 个 低 优先 级 ， 把 看 
小 电影 所 需 的 命令 放 到 高 优先 级 的 SQ， 迅 雷 下 载 所 需 的 命令 放 到 低 优 
先 级 的 SQ， 这 样 ， 你 的 电脑 就 能 把 有 限 的 资源 优先 满足 你 看 小 电影 
了 。 人 至 于 迅雷 卡 不 卡 ， 下 载 慢 不 慢 ， 这 个 时 候 已 经 不 重要 了 。 能 让 重 怎 
舒 舒 服 服 地 看 完 一 部 小 电影 ， 就 是 好 的 QoS。 实 际 系 统 中 用 多 少 个 SQ， 
取决 于 系统 配置 和 性 能 需求 ， 可 灵活 设置 /O SQ 个 数 。 
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图 6-11 SQ 和 CQ 


关于 系统 中 IO SQ 的 个 数 ，NVMe 白 皮 书 给 出 如 下 建议 ( 见 表 6- 
1). 


表 6-1 NVMe 白 皮 书 对 NVMe 的 配置 建议 


lo Wa TT 
逻辑 块 大 小 4KB 4KB 
PER Mex 
CET, xn 
mITTIT 不 支持 
SR-IOV 支持 支持 不 支持 


作为 队列 ， 每 个 SQ 和 CQ 都 有 一 定 的 深度 : 对 Admin SQ/CQ 来 说 ， 
其 深度 可 以 是 2 一 4096 (4K) ; 对 IO SQ/CQ， 深 度 可 以 是 2 一 
65536 (64K) 。 队 列 深度 也 是 可 以 配置 的 。 


SQ/CQ 的 个 数 可 以 配置 ， 每 个 SQ/CQ 的 深度 也 可 以 配置 ， 因 此 
NVMe 的 性 能 是 可 以 通过 配置 队列 个 数 和 队列 深度 来 灵活 调节 的 。 


百 变星 君 NVMe: AH. Atm. frg. TURNUM. 
我 们 已 经 知道 ，AHCI 只 有 一 个 命令 队列 ， 且 队列 深度 是 固定 的 


32， 和 NVMe 相 比 ， 无 论 是 在 命令 队列 广度 还 是 深度 上 ， 都 是 无 法 望 其 
项 背 的 ; NVMe 命 令 队 列 的 百般 变化 ， 更 是 AHCI 无 法 做 到 的 。 说 到 百 








般 变 化 ， 我 突然 又 想到 一 件 残忍 的 事情 : PCIe 也 是 可 以 的 。 一 个 PCIe 接 
口 ， 可 以 有 1、2、4、8、12、16、32 条 lane! SATA 都 要 名 了 : 单 挑 都 
挑 不 过 你 ， 你 还 来 群 殴 我 ， 太 欺负 人 了 。 


每 个 SQ 放 入 的 是 命令 条 目 ， 无 论 是 Admin 还 是 IO 命令 ， 每 个 命令 条 
目 大 小 都 是 64 字 节 ; 每 个 CQ 放 入 的 是 命令 完成 状态 信息 条 目 ， 每 个 条 
目 大 小 是 16 字 节 。 

在 继续 谈 大 宝 (DB) 之 前 ， 先 对 SQ 和 CQ 做 个 小 结 : 

:SQ 用 以 主机 发 命令 ，CQ 用 以 SSD 回 命令 完成 状态 ; 

:SQ/CQ 可 以 在 主机 的 内 存 中 ， 也 可 以 在 SSD 中 ， 但 一 般 在 主机 内 存 
中 (本 书 中 除非 特殊 说 明 ， 不 然 都 是 基于 SQ/CQ 在 主机 内 存 中 作 介 


绍 ) | 





























:两 种 类 型 的 SQ/CQ: Admin 和 IO， 前 者 发 送 Admin 命 令 ， 后 者 发 送 
IO 命令 ; 





:系统 中 只 能 有 一 对 Admin SQ/CQ， 但 可 以 有 很 多 对 IO SQ/CQ:; 
IO SQ 与 CQ 可 以 是 一 对 一 的 关系 ， 也 可 以 是 多 对 一 的 关系 ; 
TO SQ 是 可 以 赋予 不 同 优先 级 的 ; 

.IO SQ/CQ 深 度 可 达 64K，Admin SQ/CQ 深 度 可 达 4K; 

TO SQ/CQ 的 广度 和 深度 都 可 以 灵活 配置 ; 


每 条 命令 大 小 是 64B， 每 条 命令 完成 状态 是 16B。 





SQ/CQ 中 的 “Q” 指 Queue， 队 列 的 意思 〔 见 图 6-12〉， 无 论 SQ 还 是 
CQ， 都 是 队列 ， 并 且 是 环形 队列 。 队 列 有 几 个 要 系 ， 除 了 队列 深度 、 
队列 内 容 ， 还 有 队列 的 头 部 (Head〉 和 尾部 〈Tail) 。 


jJ | rl 
LR > AIR 


全 


尾部 
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图 6-12 ”队列 (Queue) 的 概念 


队伍 头 部 的 那个 正在 被 服务 或 者 等 待 被 服务 ， 一 旦 完成 ， 就 离开 队 
伍 。 可 见 队列 的 头 尾 很 重要 ， 头 决定 谁 会 被 马上 服务 ， 尾 巴 决定 了 新 来 
的 人 站 的 位 置 。DB 就 是 用 来 记录 了 一 个 SQ 或 者 CQ 的 头 和 尾 。 每 个 SQ 
或 者 CQ， 都 有 两 个 对 应 的 DB: Head DB 和 Tail DB。DB 是 在 SSD 端 的 寄 
存 器 ， 记 录 SQ 和 CQ 的 头 和 尾巴 的 位 置 。 


如 图 6-13 所 示 是 一 个 队列 生产 者 /消费 者 (Producer/Consumer) 模 
型 。 生 产 者 往 队 列 的 尾部 写 入 东西 ， 消 费 者 从 队列 的 头 部 取出 东西 。 对 
一 个 SQ 来 说 ， 它 的 生产 者 是 主机 ， 因 为 它 同 SQ 的 尾部 写 入 命令 ， 消 费 
者 是 SSD， 因 为 它 从 SQ 的 头 部 取出 指令 执行 ， 对 一 个 CQ 来 说 ， 了 刚好 相 
反 ， 生 产 者 是 SSD， 因 为 它 向 CQ 的 尾部 写 入 命令 完成 信息 ， 消 费 者 则 
是 主机 ， 它 从 CQ 的 头 部 取出 命令 完成 信息 。 
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图 6-13 ”队列 生产 者 /消费 者 模型 
下 面 举 个 例子 说 明 。 
1) 开始 假设 SQ1 和 CQ1 是 空 的 ，Head=Tail=0， 如 图 6-14 所 示 。 
系统 内 存 
主机 SQ1 基 址 


SSD 控制 器 
SQI Head DB: SQI Tail DB: 
控制 器 与 主机 号 


| o [ 9 | | cal 基 址 


CQI Head DB: CQI Tail DB: 
主机 写 控制 器 写 


EE oO | 





图 6-14 SQ、CQ、DB 初 始 化 状态 





2) 这 个 时 候 ， 主 机 往 SQ1 中 写 入 了 三 个 命令 ，SQ1 的 Tail 则 变 成 3。 
主机 往 SQ1 写 入 三 个 命令 后 ， 然 后 漂 洋 过 海 去 更 新 SSD 控 制 器 端的 
SQ1Tail DB 寄存 器， 值 为 ?3。 主 机 更 新 这 个 寄存 器 的 同时 ， 也 是 在 告诉 
SSD 控 制 器 : 有 新 命令 了 ， 帮 忙 去 我 那里 取 一 下 ， 如 图 6-15 所 示 。 


3) SSD 控 制 器 收 到 通知 后 ， 于 是 派 人 去 SQ1 把 3 个 命令 都 取 回 来 执 
行 。SSD 把 SQ1 的 三 个 命令 都 消费 了 ，SQ1 的 Head 从 而 也 调整 为 3，SSD 
控制 器 会 把 这 个 Head 值 写 入 本 地 的 SQ1Head DB 寄存 器 ， 如 图 6-16 所 
7]wo 


4) SSD 执 行 完 了 两 个 命令 ， 于 是 往 CQ1 中 写 入 两 个 命令 完成 信 


息 ， 更 新 CQ1 对 应 的 Tail DB 寄存 器 ， 值 为 2。 同 时 发 消息 给 主机 : 有 命 
令 完 成 ， 请 注意 查看 ， 如 图 6-17 所 示 。 
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图 6-15 ”主机 往 SQ 中 写 入 三 个 命令 
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CQ1 Head DB: CQ! Tail DB: 
主机 写 控制 器 写 


BE | 


TS 





图 6-16 SSD 取 走 三 个 命令 


zy. 
IRI 


内 存 





SQ1 


SSD 控制 器 
SQI Head DB: SQI Tail DB: 


CQI Head DB: 
主机 与 


LL | 


图 6-17 SSD 完 成 两 个 命令 后 写 CQ 


5) 主机 收 到 SSD 的 短信 通知 〈 中 断 信 息 ) ， 于 是 从 CQ1 中 取出 那 


两 条 完成 信息 。 处 理 完 毕 ， 主 机 又 漂 洋 过 海地 往 CQ1Head DB 寄存 器 中 
写 入 CQ1 的 head， 值 为 2， 如 图 6-18 所 示 。 


系统 内 存 





SD 控制 器 
SQ1 Head/DB: SQI Tail DB: 
Tdi iri 主机 写 


CQ1 Head DB: CQI Tail DB: 
主机 写 控制 器 写 


图 6-18 ”主机 处 理 完 CQ 中 的 两 个 命令 状态 


通过 这 个 例子 ， 我 们 又 重 温 了 一 下 命令 处 理 流程 。 之 前 也 许 只 记 住 
了 命令 处 理 需 要 8 步 〈 距 离 曹 植 一 步 之 芝 ) ， 但 现在 我 们 应 该 对 命令 处 
理 流程 有 了 更 深入 具体 的 认识 。 


那么 ，DB 在 命令 处 理 流程 中 起 了 什么 作用 呢 ? 


首先 ， 如 前 文 提 到 的 ， 它 记 住 了 SQ 和 CQ 的 尖 和 尾 。 对 SQ 来 说 ， 

SSD 是 消费 者 ， 它 直接 和 队列 的 头 打 交道 ， 很 清楚 SQ 的 头 在 哪里 ， 所 以 
SQ head DB 由 SSD 上 自己 维护 ; 但 它 不 知道 队伍 有 多 长 ， 尾 巴 在 哪 ， 后 面 
还 有 多 少 命令 等 答 执 行 ， 相 反 ， 主 机 知道 ， 所 以 SQ Tail DB 由 主机 来 更 
新 。SSD 结 合 SQ 的 头 和 尾 ， 就 知道 还 有 多 少 命令 在 SQ 中 等 待 执行 了 。 

对 CQ 来 说 ，SSD 是 生产 者 ， 它 很 清楚 CQ 的 尾巴 在 哪里 ， 所 以 CQ Tail 
DB 由 自己 更 新 ， 但 是 SSD 不 知道 主机 处 理 了 多 少 条 命令 完成 信息 ， 需 
要 主机 告知 ， 因 此 CQ Head DB 由 主机 更 新 。SSD 根 据 CQ 的 头 和 尾 ， 就 
知道 CQ 还 能 不 能 ， 以 及 能 接受 多 少 命令 完成 信息 。 

















DB 还 起 到 了 通知 作用 : 主机 更 新 SQ Tail DB 的 同时 ， 也 是 在 告知 
SSD 有 新 的 命令 需要 处 理 ; 主机 更 新 CQ Head DB 的 同时 ， 也 是 在 告知 
SSD， 你 返回 的 命令 完成 状态 信息 我 已 经 处 理 ， 同 时 表示 谢意 。 


这 里 有 一 个 对 主机 不 公平 的 地 方 ， 主 机 对 DB 只 能 写 〈 还 仅 限 于 写 
SQ Tail DB 和 CQ Head DB) ， 不 能 读 取 DB。 


在 这 个 限制 下 ， 我 们 看 看 主机 是 怎样 维护 SQ 和 CQ 的 。SQ 的 尾巴 没 
有 问题 ， 主 机 是 生产 者 ， 对 新 命令 来 说 ， 它 清楚 自己 应 该 站 在 队伍 哪 
里 。 但 是 Head 呢 ?SSD 在 取 指 的 时 候 ， 是 偷偷 进行 的 ， 主 机 对 此 上 毫 不 知 
情 。 主 机 发 了 取 指 通知 后 ， 它 并 不 清楚 SSD 什 么 时 候 去 取 命 令 、 取 了 多 
少 命令 。 怎 么 办 ? 机 智 如 你 ， 如 果 是 你 ， 你 会 怎么 做 ? 山 人 自 有 妙计 。 
给 个 提示 “〈 见 图 6-19) 。 

















跟 具 体 命令 相关 
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命令 标识 符 





图 6-19 ”SQ 的 Head DB 在 命令 完成 状态 里 


cL. 


这 是 什么 ? 这 是 SSD 往 CQ 中 写 入 的 命令 完成 状态 信息 (16€ 





UP 





是 的 ，SSD 往 CQ 中 写 入 命令 状态 信息 的 同时 ， 还 把 SQ Head DB 的 
信息 告知 了 主机 ! 这 样 ， 主 机 对 SQ 队 列 的 头 部 和 尾部 的 信息 就 都 有 
了 ， 可 以 轻松 玩 转 SQ。 


CQ? 主机 知道 它 队列 的 头 部 ， 不 知道 尾部 。 那 怎么 能 知道 尾部 
呢 ? 思 路 很 简单 ， 既 然 SSD 知 道 ， 那 你 告诉 我 咽 ! SSD 怎 么 告诉 主机 
呢 ? 还 是 通过 SSD 返 回 命 令 状 态 信 息 获 取 。 看 到 图 6-19 中 所 示 的 “P” 了 


"3? 干什么 用 ? 做 标记 用 。 


具体 是 这 样 的 ， 一 开始 CQ 中 每 条 命令 完成 将 条 目 中 的 “P” 比 特 初 始 
化 为 0 的 工作 ，SSD 在 往 CQ 中 写 入 命令 完成 条 目 时 ， 会 把 “P” 写 成 1 (如 
果 之 前 该 位 置 为 1， 控 制 器 写 CQ 的 时 候 翻 转 该 比特 ， 即 写 0) 。 记 住 一 
点 ，CQ 是 在 主机 端的 内 存 中 ， 主 机 可 以 检查 CQ 中 的 所 有 内 容 ， 当 然 包 
括 *P” 了 。 主 机 记 住 上 次 队列 的 尾部 ， 然 后 往 下 一 个 一 个 检查 “P”， 就 能 
得 出 新 的 队列 尾部 了 。 就 是 这 样 ， 如 图 6-20 所 示 。 





Phase Tag 






OW P AN, w. Hti 
Hi — AA E 


CQ 基 址 
新 的 条 目 


新 的 转变 点 


图 6-20 ”主机 根据 PhaseTag 计 算 CQ 队 列 的 尾部 
最 后 ， 给 大 宝 做 个 小 结 : 
:DB 在 SSD 控 制 器 端 ， 是 寄存 器 ; 


-DB 记录 看 SQ 和 CQ 队列 的 尖 部 和 尾部 ; 


:每 个 SQ 或 者 CQ 有 两 个 DB 
:主机 只 能 写 DB， 不 能 读 DB; 


主机 通过 SSD 往 CQ 中 写 入 的 命令 完成 状态 获取 其 队列 头 部 或 者 尾 


Head DB 和 Tail DB; 








6.4 SHENH: PRP 和 SGL 
有 个 人 一 直 在 思考 三 个 问题 ， 我 是 谁 ? 我 从 哪里 来 ? 我 要 去 哪里 ? 
你 猜 这 个 人 最 后 怎么 着 ? 
成 了 哲学 家 ? 

y? 

疯 了 的 哲学 家 ? 

我 觉得 无 外 乎 这 三 种 结果 了 。 


相 比 人 的 世界 ， 这 三 个 问题 在 NVMe 的 世界 就 很 容易 得 到 答案 了 ， 
gb ABE NOR 


我 是 数据 ， 我 从 主机 端 来 ， 要 到 SSD 去 。 或 者 ， 我 是 数据 ， 我 从 
SSD 来 ， 要 去 主机 端 。 


x 


主机 如 果 想 往 SSD 上 写 入 用 户 数 据 ， 需 要 告诉 SSD 写 入 什么 数据 ， 
写 入 多 少数 据 ， 以 及 数据 源 在 内 存 中 的 什么 位 置 ， 这 些 信息 包含 在 主机 
同 SSD 友 送 的 Write 命 令 中 。 每 笔 用 户 数 据 对 应 着 一 个 叫 作 LBA (Logical 
Block Address) 的 东西 ，Write 命 令 通 过 指定 LBA 来 告诉 SSD 写 入 的 是 什 
么 数据 。 对 NVMe/PCIe 来 说 ，SSD 收 到 Write 命 令 后 ， 通 过 PCIe 去 主机 的 
内 存 数据 所 在 位 置 读 取 数据 ， 然 后 把 这 些 数据 写 入 闪存 中 ， 同 时 生成 
LBA 与 闪存 位 置 的 映射 关系 。 
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NVME 子 系统 : 
1) Jas; 

2) 非 挥发 性 存储 
介质 (如 闪存 ); PCle Endpoint 
3 ) PCle 接口 


图 6-21 数据 在 主机 内 存 和 SSD 中 流动 


主机 如 果 想 读 取 SSD 上 的 用 户 数 据 ， 同 样 需要 告诉 SSD 需 要 什么 数 
据 ， 需 要 多 少数 据 ， 以 及 数据 最 后 需要 放 到 主机 内 存 的 哪个 位 置 上 去 ， 
这 些 信息 包含 在 主机 向 SSD 发 送 的 Read 命 令 中 。SSD 根 据 LBA， 查 找 映 
射 表 〈 写 入 时 生成 的 ) ， 找 到 对 应 内 存 物 理 位 置 ， 然 后 读 取 闪 存 获得 数 
据 。 数 据 从 闪存 读 上 来 以 后 ， 对 NVMe/PCIe 来 说 ，SSD 会 通过 PCIe 把 数 
据 写 入 主机 指定 的 内 存 中 。 这 样 就 完成 了 主机 对 SSD 的 读 访 问 。 


在 上 面 的 描述 中 ， 大 家 有 没有 注意 到 一 个 问题 ， 那 就 是 主机 在 与 
SSD 的 数据 传输 过 程 中 ， 主 机 是 被 动 的 一 方 ，SSD 是 主动 的 一 方 。 主 机 
需要 数据 ， 是 SSD 主 动 把 数据 写 入 主机 的 内 存 中 ; 主机 写 数据 ， 同 样 是 
SSD 主 动 去 主机 的 内 存 中 取 数 据 ， 然 后 写 入 闪存。 正如 快递 小 哥 一 样 六 
F, SSDM f ET], WETIRE. 





























无 论 送 货 上 门 ， 还 是 上 门 取 件 ， 你 都 需要 告诉 快递 小 哥 你 的 地 址 ， 
世界 那么 大 ， 快 递 小 哥 怎么 就 能 找到 你 呢 ? 同样 的 ， 主 机 你 不 亲自 传输 
数据 ， 那 总 该 告诉 我 SSD 去 你 内 存 中 什么 地 方 取 用 户 数据 ， 或 者 要 把 数 
据 写 入 到 你 内 存 中 的 什么 位 置 。 你 在 告诉 快递 小 哥 送 货 地 址 或 者 取 件 地 
址 时 ， 会 说 xx 路 xx 号 xx 弄 xx 楼 xx 室 ， 也 可 能 会 说 xx 小 区 xx 楼 xx 室 ， 不 
管 哪 种 方式 ， 快 递 小 哥 能 找到 就 行 。 主 机 也 有 两 种 方式 来 告诉 SSD 数 据 
所 在 的 内 存 位 置 ， 一 是 PRP (Physical Region Page， 物 理 区 域 页 ， 有 人 
戏称 其 为 “ 拼 人 品 *”) ， 二 是 SGL (Scatter/Gather List， 分 散 / 聚 集 列 表 ， 
有 人 戏称 其 为 “ 死 过 来 ， 送 过 来 >) 。 


先 说 PRP。NVMe 把 主机 端的 内 存 划分 为 一 个 一 个 物理 页 
(Page) ， 页 的 大 小 可 以 是 4KB，8KB，16KB，...，128MB。 


PRP 是 什么 ， 长 什么 样 呢 如 图 6-22 所 示 。 





63 n1]|nmn 0 





页 基地 址 页 内 偏 移 量 | 0 | 0 


图 6-22 PRP 条 上 日 (Entry) 布局 (Layout) 


PRP Entry 本 质 就 是 一 个 64 位 内 存 物 理 地 址 ， 只 不 过 把 这 个 物理 地 
址 分 成 两 部 分 : 页 起 始 地 址 和 页 内 偏 移 。 最 后 两 比特 是 0， 说 明 PRP 表 
示 的 物理 地 址 只 能 四 字 节 对 齐 访问 。 页 内 偏 移 可 以 是 0， 也 可 以 是 个 非 
零 的 值 ， 如 图 6-23 所 示 。 


主机 内 存 物 理 页 





ezna ] 0 E 


图 6-23 ”PRP 描 述 内 存 物理 空间 示例 


一 个 PRP Entry 描 述 的 是 一 个 物理 页 空间 。 如 宋 需 要 描述 符 干 个 物 





理 页 ， 那 就 需要 若干 个 PRP Entry。 把 若干 个 PRP Entry 连 接 起 来 ， 就 成 


了 PRP 链 表 (List) ， 如 图 6-24 所 示 。 


63 n+1 |n 0 


Tem k+m+1 
图 6-24 PRP 链表 布局 (Layout) 





是 的 ， 正 如 你 所 见 ，PRP 链 表 中 的 每 个 PRP Entry 的 偏 移 量 都 必须 是 
0，PRP 链 表 中 的 每 个 PRP Entry 都 是 摘 述 一 个 物理 页 。 它 们 不 允许 有 相 
同 的 物理 页 ， 不 然 SSD 往 同一 个 物理 页 写 入 几 次 数据 ， 会 导致 先 写 入 的 
数据 被 覆盖 。 


每 个 NVMe 命 令 中 有 两 个 域 : PRP1 和 PRP2， 主 机 就 是 通过 这 两 个 
域 告诉 SSD 数 据 在 内 存 中 的 位 置 或 者 数据 需要 写 入 的 地 址 ， 如 表 6-2 所 
IRo 





表 6-2 NVMe 命 令 格式 中 的 PRP 


字 节 描述 
63:60 命令 Dword15 (CDW15): 命令 相关 
59:56 命令 Dword14 (CDW14): 命令 相关 


55:52 命令 Dword13 (CDW13): 命令 相关 


51:48 命令 Dword12 (CDW12): 命令 相关 


字 节 描述 

47:44 命令 Dword11 (CDW11): 命令 相关 

43:40 命令 Dword10 (CDW10). 命令 相关 

39:32 PRP Entry 2 (PRP2): 命令 中 第 二 个 地 址 条 目 (如 果 有 用 到 的 话 ) 
31:24 PRP Entry 1 (PRP1): 命令 中 第 一 个 地 址 条 目 

23:16 MetadataPointer (MPTR ): 连续 元 数据 缓冲 区 地 址 

15:8 保留 

7:4 Namespaceldentifier (NSID) 

3:0 命令 Dword0 (CDWO0). 所 有 命令 都 用 


PRP1 和 PRP2 有 可 能 指 同 数据 所 在 位 置 ， 也 可 能 指 同 PRP 链 表 。 类 
似 C 语 言 中 的 指针 概念 ，PRP1 和 PRP2 可 能 是 指针 ， 也 可 能 是 指针 的 指 
针 ， 还 有 可 能 是 指针 的 指针 的 指针 。 别 管 你 包 得 有 多 严实 ， 根 据 不 同 的 
SSD 总 能 一 层 一 层 地 剥 下 包装 ， 找 到 数据 在 内 存 的 真正 物理 地 


下 面 是 一 个 PRP1 指 向 PRP 链 表 的 示例 ， 如 图 6-25 所 示 。 
系统 内 存 映射 
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图 6-25 PRP£fZédSXS V TE AS EaR 


PRP1 指 同一 个 PRP 链 表 ，PRP 链 表 位 于 Page 200， 页 内 偏 移 50 的 位 
置 。SSD 确 定 PRP1 是 个 指向 PRP 链 表 的 指针 后 ， 就 会 去 主机 内 存 中 
(Page 200, Offset 50) 把 PRP 链 表 取 过 来 。 获 得 PRP 链 表 后 ， 就 获得 数 
据 的 真正 物理 地 址 ，SSD 然 后 就 会 癌 这 些 物理 地 址 读 取 或 者 写 入 数据 。 


对 Admin 命 令 来 说 ， 它 只 用 PRP 告 诉 SSD 内 存 物 理 地 址 ;对 IO 命令 
来 说 ， 除 了 用 PRP， 主 机 还 可 以 用 SGL 的 方式 来 告诉 SSD 数 据 在 内 存 中 
写 入 或 者 读 取 的 物理 地 址 ， 如 表 6-3 所 示 。 


表 6-3 NVMe 命 令 格 式 中 的 SGL 








63:60 命令 Dword15 (CDWI15): 命令 相关 
59:56 命令 Dword14 (CDW14): 命令 相关 
55:52 命令 Dword13 (CDW13): 命令 相关 
51:48 命令 Dword12 (CDW12): 命令 相关 
47:44 命令 Dword11 (CDW11): 命令 相关 
43:40 命令 Dword10 (CDW10): 命令 相关 


如 果 CDW0[15:14]=00b， 这 个 域 解释 为 PRP2+PRP1， 即 用 PRP 方式 描述 内 存 地 址 ; 


如 果 CDWO[15:14]-01b 或 者 10b， 这 个 域 解释 为 SGL， 即 用 SGL 方式 描述 内 存 地 址 
23:16 MetadataPointer (MPTR ): 连续 元 数据 缓冲 区 地 址 

15:8 保留 

7:4 Namespaceldentifier (NSID) 

3:0 命令 Dword0 (CDW0): 所 有 命令 都 用 


主机 在 命令 中 会 告诉 SSD 采 用 何 种 方式 。 具 体 来 说 ， 如 果 命 令 当 中 
DW0[15: 14] 是 0， 就 是 PRP 的 方式 ， 否 则 就 是 SGEL 的 方式 。 


SGL 是 什么 ? SGL 是 一 个 数据 结构 ， 用 以 描述 一 段 数 据 空 间 ， 这 个 
空间 可 以 是 数据 源 所 在 的 空间 ， 也 可 以 是 数据 目标 空间 。SGL (Scatter 
Gather List) 首先 是 个 List， 是 个 链表 ， 由 一 个 或 者 多 个 SGL 段 
(Segment) 组 成 ， 而 每 个 SGL 段 又 由 一 个 或 者 多 个 SGL 描 述 符 
(Descriptor) 组 成 。SGL 描 述 符 是 SGL 最 基本 的 单元 ， 它 描述 了 一 段 连 
续 的 物理 内 存 空间 : 起 始 地 址 + 空间 大 小 。 


每 个 SGL 描 述 符 大 小 是 16 字 节 。 一 块 内 存 空 间 ， 可 以 用 来 放 用 户 数 
据 ， 也 可 以 用 来 放 SGL 段 ， 根 据 这 段 空 间 的 不 同 用 途 ，SGL 描 述 符 也 分 
几 种 类 型 ， 如 表 6-4 所 示 。 








表 6-4 SGL 描 述 符 类 型 


T T 


Oh SGL 数据 块 描述 符 (Data Block Descriptor) || 3h SGL 未 上 段 描述 符 (Last Segment Descriptor) 
Ih SGL 位 棚 描 述 符 (Bit Bucket Descriptor) 4h 一 Eh | 保留 
2h SGL 段 描述 符 (Segment Descriptor) Fh 商家 指定 





由 表 6-4 可 知 ， 有 4 种 SGL 描 述 符 : 


一 种 是 数据 块 描述 符 ， 这 个 好 理解 ， 就 是 描述 的 这 段 空 间 是 用 户 
数据 空间 。 


-一 种 是 段 描述 符 ，SGL 不 是 由 SGL 段 组 成 的 链表 吗 ?” 既然 是 链表 ， 
前 面 一 个 段 就 需要 有 个 指针 指 网 下 一 个 段 ， 这 个 指针 融 是 SGL 段 描述 
符 ， 它 描述 的 是 它 下 一 个 段 所 在 的 空间 。 


.特别 地 ， 对 链表 当中 倒数 第 二 个 段 ， 它 的 SGL 段 描述 符 我 们 把 它 
叫 作 SGL 末 有 段 描述 符 。 它 本 质 还 是 SGL 段 描述 符 ， 描 述 的 还 是 SGL 段 所 
在 的 空间 。 为 什么 需要 把 倒数 第 二 个 SGL 段 描述 符 单独 的 定义 成 一 种 类 
型 呢 ? 我 认为 是 让 SSD 在 解析 SGL 的 时 候 ， 碰 到 SGL 末 段 描述 符 ， 就 知 
道 链 表 快 到 头 了 ， 后 面 只 有 一 个 段 了 。 


.那么 最 后 ，SGL 位 桶 是 什么 ? 它 只 对 主机 读 有 用 ， 用 以 告诉 SSD， 
你 往 这 个 内 存 写 入 的 东西 我 是 不 要 的 。 好 吧 ， 你 既然 不 要 ， 我 也 就 不 传 
EE 
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图 6-26 ”SGL 示 例 
如 果 还 是 晕 ， 看 个 例子 吧 〈 见 图 6-27) . 


这 个 例子 中 ， 假 设 主 机 需要 从 SSD 中 读 取 13KB 的 数据 ， 其 中 真正 
只 需要 11KB 数 据 ， 这 11KB 的 数据 需要 放 到 3 个 大 小 不 同 的 内 存 中 ， 分 
jÆ: 3KB、4KB 和 4KB。 


无 论 是 PRP 还 是 SGL， 本 质 都 是 描述 内 存 中 的 一 段 数据 空间 ， 这 段 
数据 空间 在 物理 上 可 能 是 连续 的 ， 也 可 能 是 不 连续 的 。 主 机 在 命令 中 设 
置 好 PRP 或 者 SGL， 告 诉 SSD 数 据 源 在 内 存 的 什么 位 置 ， 或 者 从 闪存 上 
读 取 的 数据 应 该 放 到 内 存 的 什么 位 置 。 


大 家 也 许 跟 我 有 个 同样 的 疑问 ， 那 就 是 ， 既 然 有 PRP， 为 什么 还 需 
要 SGL? 事实 上 ，NVMel.0 的 时 候 的 确 只 有 PRP，SGL 是 NVMel.1 之 后 
引入 的 。 那 SGL 和 PRP 本 质 的 区 别 在 哪 ? 图 6-28 道 出 了 真相 : PRPA 
的 是 物理 页 ， 而 SGL 可 以 描述 任意 大 小 的 内 存 空间 。 


对 NVMe over PCIe (我 们 目前 讲 的 都 是 NVMe 跑 在 PCIe 上) , 
Admin 命 令 只 支持 PRP，1I/O 命 令 可 以 支持 PRP 或 者 SGL; 对 NVMe over 
Fabrics， 所 有 命令 只 支持 SGL。 
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图 6-27 ”SGL 读 示例 
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主机 虚拟 内 存 主机 虚拟 内 存 
主机 物理 内 存 主机 物理 内 存 
PRP 数据 传输 SGL 数据 传输 


图 6-28 PRP vs SGL 


6.5 Trace 分 析 


前 面 我 们 已 经 看 到 过 图 6-29 所 示 的 结构 ， 任 何 一 种 计算 机 协议 都 是 
采用 这 种 分 层 结 构 的 ， 下 层 总 是 为 上 层 服 务 的 。 有 些 协 议 ， 图 中 所 有 的 
层次 都 有 定义 和 实现 ， 而 有 些 协 议 ， 只 定义 了 其 中 的 几 层 。 然 而 ， 要 让 
一 种 协议 能 工作 ， 它 需要 一 个 完整 的 协议 栈 ，PCIe 定 义 了 下 三 层 ， 
NVMe 定 义 了 最 上 层 ， 两 者 一 担 即 合 ， 构 成 一 个 完整 的 主机 与 SSD 通 信 


的 协议 。 





数据 链 路 层 


图 6-29 ”PCIe+NVMe 协 议 栈 
PCIe 最 直接 接触 的 是 NVMe 的 事务 层 。 在 NVMe 层 ， 我 们 能 看 到 的 





PCle 








是 64 字 节 的 命令 、16 字 节 的 命令 返回 状态 ， 以 及 跟 命令 相关 的 数据 。 而 
在 PCIe 的 事务 层 ， 我 们 能 看 到 的 是 事务 层 数据 包 CTransaction Layer 
Packet) ， 即 TLP。 还 是 跟 快 递 做 类 比 ， 你 要 寄 东 西 ， 可 能 是 手机 ， 可 
能 是 电脑 ， 不 管 是 什么 ， 你 交 给 快递 小 可 ， 他 总 是 把 你 要 寄 的 东西 打 
包 ， 人 快递 员 看 到 的 就 是 包 囊 ， 他 根本 不 关心 你 里 面 的 内 容 。PCIe 事 务 层 
作为 NVMe 最 直接 的 服务 者 ， 不 管 你 NVMe 发 给 我 的 是 命令 ， 还 是 命令 
状态 ， 或 者 是 用 户 数据 ， 我 统统 帮 你 放 进 包 襄 ， 打 包 后 交 给 下 一 层 ， 即 
数据 链 路 层 继续 处 理 ， 如 图 6-30 所 示 。 
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—Configuration Read/Write 


—Completion 


图 6-30 ”PCIe 两 设备 通信 示意 图 


对 PCIe， 我 们 这 里 只 关注 事务 层 ， 因 为 它 跟 NVMe 的 接触 是 最 直 
接 、 最 亲密 的 。PCIe 事 务 层 传输 的 是 TLP， 它 就 是 个 包 里 ， 一 般 由 包头 
和 数据 组 成 ， 当 然 也 有 可 能 只 有 包头 没有 数据 。NVMe 传 下 来 的 数据 都 
是 放 在 TLP 的 数据 部 分 的 〈Payload) 。 为 实现 不 同 的 目的 ，TLP 可 分 为 
以 下 几 种 类 型 : 





Configuration Read/Write 
"I/O Read/Write 

Memory Read/Write 
Message 


Completion 


注意 ， 这 个 Completion 跟 NVMe 层 的 Completion 不 是 同一 个 东西 ， 
它们 处 在 不 同 层 。PCIe 层 的 Completion TLP， 是 对 所 有 Non-Posted 型 的 
TLP 的 啊 应 ， 比 如 一 个 Read TLP, Himi Completion TLP 来 作为 啊 应 。 


NVMe 层 的 Completion， 是 对 每 个 SQ 中 的 命令 ， 都 需要 一 个 
Completion 来 作为 啊 应 。 


在 NVMe 命 令 处 理 过 程 中 ，PCIe 事 务 层 基 本 只 用 Memory Read/Write 
TLP 来 为 NVMe 服 务 ， 其 他 类 型 TLP 我 们 可 以 不 用 管 


主机 发 送 一 个 Read 命 令 ，PCIe 是 如 何 服务 的 ? 接 下 来 ， 结 合 NVMe 
命令 处 理 流程 ， 我 将 带 着 大 家 把 图 6-31 看 懂 ， 看 看 NVMe 和 PCIe 的 事务 
层 发 生 了 什么 。 
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首先 ， 主 机 准备 了 一 个 Read 命 令 给 SSD 〈 见 图 6-32) 。 


OPC [ Data [0000001 ere000 | [00000055 00000000 | SLBA NLB PRINFO FUA LR 
Ox0003|0x0003|0x0005||128 dwords||00000000:00000000||00000001:4ACCB000||00000000:00000000|[00000000:020E0448||0x0000|] oxo | o [0| 





也 许 你 对 NVMe Read 命 令 格式 不 是 很 清楚 ， 但 从 图 6-32 中 ， 我 们 还 
是 能 得 到 下 面 的 信息 : 主机 需要 从 起 始 LBA 0x20E0448 (SLBA) 上 读 
取 128 个 DWORD (512 字 节 ) 的 数据 ， 读 到 哪里 去 呢 ? PRP1 给 出 内 存 地 
址 是 0x14ACCB000。 这 个 命令 放 在 编写 为 3 的 SQ 里 (SQID=3) ，CQ 编 
号 也 是 3 (CQID=3) 。 我 觉得 知道 这 些 就 够 了 。 相 信 你 看 了 前 面 章 节 的 
介绍 ， 刚 才 说 的 这 些 应 该 都 能 懂 。 


当主 机 把 一 个 命令 准备 好 放 到 SQ 后 ， 接 下 来 步骤 是 什么 呢 ? 回想 
一 下 NVMe 命 令 处 理 的 八 个 步骤 。 


第 一 步 ， 主 机 准备 好 命令 在 SQ; (ER) 


第 二 步 : 主机 通过 写 SQ 的 Tail DB， 通 知 SSD 来 取 命令 。 





图 6-33 中 ， 上 层 是 NVMe 层 ， 下 层 是 PCIe 的 事务 层 ， 这 一 层 我 们 看 
到 的 是 TLP。 主 机 想 往 SQ Tail DB 中 写 入 的 值 是 5。PCIe 是 通过 一 个 
Memory Write TLP 来 实现 主机 写 SQ 的 Tail DB 的 。 


EN NVM [m saQvTDBL IO SQT QID = 3 nm # Link & Split Trans Rt Delta Time Stamp 
12 | ds 006:00:0 |[0x0003 y 0x0005 400.000 ns |0055. 321 622 570 s 
” LinkTra (p, | TP | [1st BE[Last BE 
235 |x4 || 1009 010:00000 1 000:00:0 F7C11018 1111 | 0000 ||1 dword 


图 6-33 ”主机 通过 Memory Write 写 SQ 的 Tail DB 








一 个 主机 ， 下 面 可 能 连接 着 若干 个 Endpoint， 该 SSD 只 是 其 中 的 一 
个 Endpoint 而 已 ， 那 有 个 问题 ， 主 机 怎样 才能 准确 更 新 该 SSD 控 制 器 中 
的 Tail DB 寄存 器 呢 ? 怎么 寻 址 ? 


其 实 ， 在 上 电 的 过 程 中 ， 每 个 Endpoint (在 这 里 是 SSD) 的 内 部 空 
间 都 会 通过 内 存 映 射 (Memory Map) 的 方式 映射 到 主机 的 内 存 
(Memory) 地 址 空间 中 ，SSD 控 制 右 当中 的 寄存 堪 会 被 映射 到 主机 的 
内 存 地 址 空间 ， 当 然 也 包括 Tail DB 寄存 器 。 主 机 在 用 Memory Write 写 
的 时 候 ，Address 只 需 设 置 该 寄存 器 在 主机 内 存 中 映射 的 地 址 ， 就 能 准 
确 写 入 该 寄存 器 。 以 图 6-33 为 例 ， 该 Tail DB 寄存 器 应 该 映射 在 主机 内 存 
地 址 0xF7C11018， 所 以 主机 写 DB， 只 需 指 定 这 个 映射 地 址 ， 就 能 准确 
无 误 地 写 入 对 应 的 寄存 器 中 去 。 


NVMe 处 理 命 令 的 第 三 步 : SSD 收 到 通知 ， 去 主机 端的 SQ 中 取 指 。 


SSD 是 通过 发 一 个 Memory Read TLP 到 主机 的 SQ 中 取 指 的 。 可 以 看 
到 ，PCIe 需 要 往 主 机 内 存 中 读 取 16 个 DWORD 的 数据 。 为 什么 是 
16DWORD 数 据 ? 因为 每 个 NVMe 命 令 的 大 小 是 64 个 字 节 。 从 图 6-34 
中 ， 我 们 可 以 推断 SQ 3 当前 的 Head 指 向 的 内 存 地 址 是 0x101A41100。 怎 
么 推断 来 的 ? 因为 SSD 总 是 从 主机 的 SQ Head 取 指 的 ， 而 图 6-34 中 ， 
Address 就 是 0x101A41100， 所 以 我 们 有 此 推断 。 























































































图 6-34 ”SSD 通过 Memory Read 取 指 


在 图 6-34 中 ，SSD 往 主机 发 送 了 一 个 Memory Read 的 请 求 ， 主 机 通 
过 Completion 的 方式 把 命令 数据 返回 给 SSD。 和 前 面 的 Memory Write 不 
IJ, Memory Read 中 不 含 数 据 ， 只 是 个 请 求 ， 数 据 的 传输 需要 对 方 发 个 
Completion。 像 这 种 需要 对 方 返 回 状态 的 TLP 请 求 ， 我 们 叫 它 Non- 
Posted 请 求 。 怎 么 理解 昵 ? Post 有 “邮政 ”的 意思 ， 就 像 你 寄 信 一 样 ， 你 
往 邮 箱 中 一 扔 ， 对 方 能 不 能 收 到 ， 束 看 快递 员 的 素养 了 ， 反 正 你 是 把 信 
发 出 去 了 。 像 Memory Write 这 种 请 求 ， 就 是 Posted 请 求 ， 数 据 传 给 对 
方 ， 至 于 对 方 有 没有 处 理 ， 我 们 不 在 乎 ， 而 像 Memory Read 这 种 请 求 ， 
它 就 必须 是 Non-Posted 了 ， 因 为 如 果 对 方 不 啊 应 〈 不 返回 数据 ) 给 我 ， 
Memory Read 就 是 失败 的 。 所 以 ， 每 个 Memory Read 请 求 都 有 相应 的 
Completion. 


NVMe 处 理 命令 的 第 四 步 : SSD 执 行 读 命令 ， 把 数据 从 闪存 中 读 到 
缓存 中 ， 然 后 把 数据 传 给 主机 。 


数据 从 闪存 中 读 到 缓存 中 ， 这 是 SSD 内 部 的 操作 ， 跟 PCIe 和 NVMe 
没有 任何 关系 ， 因 此 ， 我 们 捕捉 不 到 SSD 的 这 个 行为 。 在 PCIe 接 口上 ， 
我 们 只 能 捕捉 到 SSD 把 数据 传 给 主机 的 过 程 。 


如 图 6-35 所 示 ，SSD 通 过 Memory Write TLP 把 主机 命令 所 需 的 128 个 
DWORD 数 据 写 入 主机 命令 所 要 求 的 内 存 中 去 。SSD 每 次 写 入 32 个 
DWORD， 一 共 写 了 4 次 。 正 如 之 前 所 说 ， 我 们 没有 看 到 Completion 
TEP; €M 
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图 6-35 SSD 通 过 MemoryWrite 返 回 数据 给 主机 


SSD 一 旦 把 数据 返回 给 主机 ， 束 会 认为 命令 人 处理 完毕 ， 第 五 步 就 
是 : SSD 往 主机 的 CQ 中 返回 状态 。 


如 图 6-36 所 示 ，SSD 是 通过 Memory Write TLP 把 16 个 字 节 的 命令 完 
成 状态 信息 写 入 主机 的 CQ 中 。 
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[1st BE[Last BE | MEDEA VCI 
006:00:0 [00000001:01A51050 | 1111 ||4 dwords 


E S n MEOS 


SSD 往 主机 的 CQ 中 写 入 后 ， 第 六 步 就 是 : SSD 采 用 中 断 的 方式 告诉 
主机 去 处 理 CQ。 


SSD 中 断 主 机 ，NVMe/PCIe 有 四 种 方式 : Pin-Based Interrupt, 
Single Message MSI, Multiple Message MSI 和 MSI-X〈 关 于 中 断 ， 具 体 
的 可 以 参看 NVMe V1.2 协 议 规范 第 171 页 ， 有 详细 介绍 ， 有 兴趣 的 可 以 
去 看 看 ) 。 在 图 6-37 中 ， 这 个 例子 中 使 用 的 是 MSI-X 中 断 方 式 。 跟 传统 
的 中 断 不 一 样 ， 它 不 是 通过 硬件 引 脚 的 方式 ， 而 是 和 正 第 的 数据 信息 一 
样 ， 通 过 PCIe 打 包 把 中 断 信 息 告知 主机 。 图 6-37 告 诉 我 们 ，SSD 还 是 通 
过 Memory Write TLP 把 中 断 信 息 告知 主机 ， 这 个 中 断 信 息 长 度 是 
1DWORD. 


NVM nerupr Be un Message [ een in it Trans ime Delta Tim 
181 006:00:0 ||0x0003|0x0005|| 00000000:FEE0400C iis D us |0055 ZA hos 122 8 
ra st BE[Last BE] m m *Pa — 
1637 AEE 2240 010:00000 006:00:0 FEEO400C Er I 1 dword 0 Packet #2725 Hic 


主机 收 到 中 断后 ， 第 七 步 就 是 : 主机 处 理 相 应 的 CQ。 这 步 是 在 主 
机 端 内 部 发 生 的 事情 ， 在 Trace 上 我 们 捕捉 不 到 这 个 处 理 过 程 。 


最 后 一 步 ， 主 机 处 理 完 相 应 的 CQ 后 ， 需 要 更 新 SSD 端 的 CQ Head 
DB, 告知 SSD CQ 处 理 完毕 。 





























跟前 面 一 样 ， 主 机 还 是 通过 Memory Write TLP 更 新 SSD 端 的 CQ 
Head DB， 如 图 6-38 所 示 。 


NVM Ins st Link & Split Trans [| Time Delta Time Stamp 
184 | 006:00:0 | 00:0 [0x0003| 0003 0x0006 1 0055 . 322 027 394 s 
7 w ength Ts BE 
658 x 1 000:00:0 0 F7C1101C 1111 0000 1 dword 0 Packet #2751 


图 6-38 主机 通 过 Memory Write 更 新 CQ 的 Head DB 


通过 PCIe Trace， 我 们 从 PCIe 的 事务 层 看 到 了 一 个 NVMe Read 命 令 
是 怎么 处 理 的 ， E IRA Ja 基本 都 是 通过 Memory Write 和 Memory Read 
TLP 传 输 NVMe 命 令 、 数 据 和 状态 等 信息 ， 看 到 了 NVMe 命 令 处 理 的 八 
个 步骤 ， 


上 面 举 的 是 NVMe 读 命令 处 理 ， 其 他 命令 处 理 过 程 其 实 着 不 多 ， 这 
里 不 再 资 述 。 


最 后 ， 我 再 贴 出 完整 的 Trace， 相 信 ， 也 希望 大 家 不 会 再 有 一 团 乱 
麻 的 感觉 ( 见 图 6-39) 。 
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图 6-39 ”NVMe 读 命令 memg Trace 


6.6 mm p 


接 下 来 ， 我 们 要 说 的 话题 就 是 NVMe 中 端 到 端的 数据 保护 功能 ， 看 
看 NVMe 中 的 保镖 是 怎样 为 我 们 的 数据 保 要 护航 的 。 


端 到 端 ， 一端 是 主机 的 内 存 空间 ， 一 端 是 SSD 的 内 存 空间 。 


我 们 需要 保护 的 是 用 户 数据 。 主 机 与 SSD 之 间 ， 数 据 传输 的 最 小 单 
元 是 逻辑 块 (Logical Block, LB) ， 每 个 逻辑 块 大 小 可 以 是 
512/1024/2048/4096 等 字 节 ， 主 机 在 格式 化 SSD 的 时 候 ， 逻 辑 块 大 小 就 确 
定 了 ， 之 后 两 者 就 按 这 个 逻辑 块 大 小 进行 数据 交互 。 


数据 从 主机 到 NVM (Non-Volatile Memory， 目 前 一 般 是 闪存， 后 
面 我 就 用 闪存 来 代表 NVM) ， 首 先 要 经 过 PCIe 传 输 到 SSD 的 控制 器 ， 然 
后 控制 器 把 数据 写 入 闪存 ;， 反 过 来 ， 主 机 想 从 闪存 上 读 取 数据 ， 首 先 要 
BUD UNDE 然后 经 过 PCIe 把 数据 传送 给 主机 ， 如 

6-40 所 示 。 
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图 6-40 ”主机 与 SSD 之 间 传 输 数 据 


主机 与 SSD 之 间 ， 数 据 在 PCIe 上 传输 的 时 候 ， 由 于 信道 噪声 的 存在 
(说 日 了 就 是 存在 干扰 ) ， 可 能 导致 数据 出 错 ; 另外 ， 在 SSD 内 部 ， 控 
制 絮 与 内 存 之 间 ， 数 据 也 可 能 及 生 错 误 。 为 确保 主机 与 内 存 之 间 数 据 的 
完整 性 ， 即 主机 写 入 闪存 的 数据 与 最 初 主机 写 的 数据 一 致 ， 以 及 主机 读 
到 的 数据 与 最 初 从 内 存 上 读 上 来 的 数据 一 致 ，NVMe 提 供 了 一 个 端 到 端 
的 数据 保护 功能 。 


除了 逻辑 块 数据 本 身 ，NVMe 还 允许 每 个 逻辑 块 带 个 助理 ， 叫 作 元 
数据 (Meta Data) 。 这 个 助理 的 职责 ，NVMe 虽 然 没 有 明确 要 求 ， 但 如 














果 数 据 需 要 保护 ， 这 个 助理 就 必须 能 充当 保镖 的 角色 。 


元 数据 有 两 种 存在 方式 ， 一 种 是 作为 逻辑 块 数据 的 扩展 ， 和 逻辑 块 
数据 放 一 起 传输 ， 这 是 贴身 保镖 〈 见 图 6-41) 。 


e SRW " 
1v 5H BUS n - 的 元 数据 ipd gi ntl el 的 元 数据 X 主机 








数据 缓冲 区 (PRPI & PRP2) 
图 6-41 元 数据 和 逻辑 块 数据 放 一 起 传输 


男 外 一 种 方式 就 是 逻辑 块 数据 和 元 数据 分 别传 输 。 虽 不 是 贴 映 保 
护 ， 但 保镖 在 附近 时 刻 注 意 着 主人 的 安全 ， 属 于 非 贴身 保镖 〈 见 图 6- 
42) . 


18e | 池 辑 块 数据 | 多 辑 块 数据 


n 的 元 数据 nme 的 元 数据 |n+2 的 元 数据 





元 数据 缓冲 区 






逻辑 块 数据 | 敢 辑 块 数据 n1 om RECO n+2 





数据 缓冲 区 (PRP1 & PRP2) 
图 6-42 ”元 数据 和 逻辑 块 数据 分 开 传输 
NVMe over Fabrics 只 支持 元 数据 和 逻辑 数据 放 一 起 ， 即 贴身 保护 。 
贴身 保护 与 否 ， 我 们 不 关心 形式 ， 我 们 只 关心 元 数据 是 如 何 保护 逻 
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Application Tag 


Byte 


Reference Tag 








图 6-43 ”数据 保护 信息 格式 
其 中 : 


"Guard: 16 比 特 的 CRC (Cyclic Redundancy Check) ， 它 是 逻辑 块 
数据 算出 来 的 ; 


Application Tag: 这 块 区 域 对 控制 器 不 可 见 ， 为 主机 所 用 ; 


Reference Tag: 将 用 户 数据 和 地 址 (LBA)， 相 关联， 防止 数据 错 
乱 。 


CRC 校 验 能 够 检测 出 数据 是 否 有 错 ， 后 者 则 是 保证 数据 不 会 出 现 张 
冠 李 戴 的 问题 ， 比 如 我 读 LBA x， 结 果 却 读 到 了 LBA y 的 数据 。NVMe 
数据 保护 机 制 能 发 现 这 类 问题 。 


配 了 保镖 的 数据 如 图 6-44 所 示 (以 512 字 市 的 数据 块 为 例 )。 


User Data ( 512 Bytes[example]) 


Guard ( 2 Bytes) 


Application Tag ( 2 Bytes) 


Reference Tag ( 4 Bytes) 


图 6-44” 带 有 保护 信息 的 逻辑 数据 块 
在 主机 与 SSD 数 据 传输 过 程 中 ，NVMe 可 以 让 每 个 逻辑 块 数 据 都 带 
上 保镖 ， 可 以 让 它们 不 带 保镖 ， 也 可 以 在 茶 个 治安 差 的 地 方 把 保镖 市 
上 ， 然 后 在 治安 环境 好 的 地 方 不 用 保镖 。 


XENLISSDE AXE. ABER CULÉ6-45) 。 
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图 6-45 不 带 数 据 保护 信息 





什么 情况 下 可 以 不 带 保镖 ? 


如 果 你 是 普通 人 ， 完 全 没有 必要 配 保镖 ， 原 因 有 : 由 你 请 不 起 保 
fu 凶 谁 有 空 来 伤害 你 呢 ? @ 太 平 盛世 。 


如 果 是 无 关 紧 要 的 数据 《如 小 电影 ) ， 完 全 没有 必要 进行 端 到 端的 
保护 ， 毕 竞 数 据 保护 需要 传输 额外 的 数据 (每 个 逻辑 数据 块 需要 人 至少 额 
外 8 字 节 的 数据 保护 信息 ， 有 效 带 宽 减 少 ) ， 还 需要 SSD 做 额外 的 数据 
TREERE GEN, ERRAZ) 。 最 关键 的 是 在 PCIe 通 道上 ， 本 来 就 有 





LCRC 的 保护 ， 有 必要 的 话 还 可 以 使 能 ECRC， 这 个 跟 NVMe 关 系 不 大 ， 
就 不 展开 了 。 


主机 向 SSD 写 入 数据 ， 全 程 带 上 保镖 的 情况 〈 见 图 6-46) . 








图 6-46” 带 数据 保护 信息 数据 写 流程 
图 6-46 中 的 PI CProtection Information， 保 护 信 息 ) 就 是 传说 中 的 保 


AN o 


主机 数据 通过 PCIe 传 输 到 SSD 控 制 器 时 ，SSD 控 制 器 会 重新 计算 逻 
辑 块 数据 的 CRC， 与 保镖 的 CRC 比 较 ， 如 果 两 者 匹配 ， 说 明 数 据 传输 是 
人 
主机 报错 。 


除了 CRC 校 验 ， 还 要 检测 有 没有 张冠李戴 的 问题 ， 通 过 检测 
Reference Tag， 看 看 这 个 没有 CRC 问 题 的 数据 是 不 是 该 主机 写 命令 对 应 
的 数据 ， 如 果 不 匹配 ， 同 样 需要 问 主 机 报错 。 


如 果 数 据 检测 没有 问题 ，SSD 控 制 器 会 把 逻辑 块 数据 和 PI 一 同 写 入 
ne 
6-47 PTZ o 
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图 6-47 Xs DR dei As BUR DE UTE 
SSD 控 制 器 读 闪 存 的 时 候 ， 会 对 读 上 来 的 数据 进行 CRC 校 验 ， 如 果 


写 入 的 时 候 带 有 PI， 这 个 时 候 就 能 检测 出 读 上 来 的 数据 是 否 正 确 ， 从 而 
决定 这 个 数据 要 不 要 传 给 主机 。 有 人 要 说 ， 对 闪存 来 说 ， 数 据 不 是 受 
ECC 保 护 吗 ?为 什么 还 要 额外 进行 数据 校 验 ? 没 错 ， 写 入 闪存 中 的 数据 
是 受 ECC 保 护 ， 这 个 没有 问题 ， 但 在 SSD 内 部 ， 数 据 从 控制 器 到 闪存 之 
间 ， 一 般 都 要 经 过 DRAM 或 者 SRAM， 在 之 前 SSD 控 制 器 写 入 闪存 ， 或 
者 这 个 时 候 从 闪存 读数 据 到 SSD 控 制 器 ， 可 能 就 会 发 生 比 特 翻转 之 类 的 
小 概率 事件 ， 从 而 导致 数据 不 正确 。 如 果 在 NVMe 层 再 做 个 CRC 保 护 ， 
这 类 数据 错误 就 能 被 发 现 了 。 

除了 数据 在 SSD 内 发 生 反 转 ， 由 于 固件 问题 或 者 别 的 原因 ， 还 是 会 
出 现 数据 张冠李戴 的 问题 : 数据 虽然 没有 CRC 错 误 ， 但 是 它 不 是 我 们 想 
要 的 数据 。 因 此 ， 还 需要 做 Reference Tag 检 测 。 


SSD 控 制 器 通过 PCIe 把 数据 传 给 主机 ， 主 机 端 也 会 对 数据 进行 校 
验 ， 看 SSD 返 回 的 数据 是 否 有 错 。 


主机 往 SSD 写 入 数据 ， 半 程 带 保镖 的 情况 〈 见 图 6-48) . 

















控制 器 PCle SSD 


插入 保护 | PERR A 


信息 (PI) 





图 6-48 SSD 内 部 加 入 数据 保护 信息 


这 种 情况 ， 主 机 与 控制 器 端 之 间 是 没有 数据 保护 的 ， 因 为 PCIe 已 经 
能 提供 数据 完整 性 保证 了 。 但 在 SSD 内 部 ， 控 制 器 到 闪存 之 间 ， 由 于 乱 
七 八 糟 的 原因 《数据 反 转 ，LBA 数 据 不 匹配 ) ， 存 在 数据 错误 的 可 能 ， 
NVMe 要 求 SSD 控 制 器 在 把 数据 写 入 闪存 前 ， 计 算 好 数据 的 PI， 然 后 把 
数据 和 PI 一 同 写 入 闪存 。 


SSD 控 制 器 读 闪 存 的 时 候 ， 会 对 读 上 来 的 数据 进行 PI 校 验 ， 如 果 没 
有 问题 ， 剥 除 PI， 然 后 把 逻辑 块 数据 返回 给 主机 ;， 如 果 校 验 失 败 ， 说 明 
数据 存在 问题 ，SSD 需 要 问 主 机 报错 ， 如 图 6-49 所 示 。 
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校 验 并 剥离 


保护 信息 








图 6-49 SSD 内 部 根据 数据 保护 信息 验证 数据 


数据 问 到 问 保 护 是 NVMe 的 一 个 特色 ， 其 本 质 就 是 在 数据 块 中 加 入 
CRC 和 数据 块 对 应 的 LBA 等 见 余 信息 ，SSD 控 制 絮 或 者 主机 端 利用 这 些 
信息 进行 数据 校 验 ， 然 后 根据 校 验 结 果 执 行 相应 的 操作 。 加 入 这 些 检 错 
信息 的 好 处 是 能 让 主机 与 SSD 控 制 右 及 时 发 现 数据 错误 ， 副 作用 就 是 : 


1) 每 个 数据 块 需要 额外 的 至 少 8 字 市 的 数据 保护 信息 ， 有 效 禹 宽 减 
少 : 数据 块 越 小 ， 种 宽 影 响 越 大 。 


2) SSD 控 制 器 需要 做 数据 校 验 ， 影 响 性 能 。 


但 是 ， 我 觉得 这 二 个 副作用 的 影响 是 微乎其微 的 ， 跟 数据 安全 性 相 
比 ， 这 又 算得 了 什么 呢 ? 











6.7 Namespace 


什么 是 Namespace 〈 以 下 简称 NS) ? 


一 个 NVMe SSD 主 要 由 SSD 控 制 器 、 闪 存 空间 和 PCIe 接 口 组 成 。 如 
果 把 闪存 空间 划分 成 若干 个 独立 的 逻辑 空间 ， 每 个 空间 逻辑 块 地 址 
(LBA) 范围 是 0 到 N-1 (CN 是 逻辑 空间 大 小 ) ， 这 样 划分 出 来 的 每 一 个 
逻辑 空间 我 们 就 叫 作 NS。 对 SATA SSD 来 说 ， 一 个 闪存 空间 只 对 应 着 一 
个 逻辑 空间 ， 与 之 不 同 的 是 ，NVMe SSD 可 以 是 一 个 闪存 空间 对 应 多 个 
逻辑 空间 。 


每 个 NS 都 有 一 个 名 称 与 ID， 如 同 每 个 人 都 有 名 字 和 喘 份 证 号 码 ， 
ID 是 独一无二 的 ， 系 统 就 是 通过 NS 的 ID 来 区 分 不 同 的 NS。 
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图 6-50 ANS 


如 图 6-50 所 示 ， 整 个 内 存 空间 划分 成 两 个 NS， 名 字 分 别 是 NS A 和 
NS B， 对 应 的 NS ID 分 别 是 1 和 2。 如 果 NS A 大 小 是 M〈 以 逻辑 块 大 小 为 
单位 ) ，NS B 大 小 是 N， 则 它们 的 逻辑 地 址 空间 分 别 是 0 到 M-1 和 0 到 N- 
1o 主机 读 写 SSD， 都 是 要 在 命令 中 指定 读 写 的 是 哪个 NS 中 的 逻辑 块 。 


原因 很 简单 ， 如 果 不 指 定 NS， 对 同一 个 LBA 来 说 ， 假 设 就 是 LBA 0, 
SSD 根 本 就 不 知道 去 读 或 者 写 哪 里 ， 因 为 有 两 个 逻辑 空间 ， 每 个 逻辑 空 
间 都 有 LBA 0。 


如 同 我 只 说 德州 ， 如 果 不 告诉 你 是 哪个 国家 的 ， 你 怎 知道 我 说 的 是 
美国 德州 还 是 山东 德州 。 


一 个 NVMe 命 令 一 共 64 字 节 ， 其 中 Byte[7: 4 指定 了 要 访问 的 NS， 
如 表 6-5 所 示 。 





表 6-5 NVMe 命 令 中 NS 域 








63:60 命令 Dword15 (CDW15): 命令 相关 
59:56 命令 Dword14 (CDW14): 命令 相关 
55:52 命令 Dword13 (CDW13): 命令 相关 
51:48 命令 Dword12 (CDW12): 命令 相关 
47:44 命令 Dword11 (CDW11): 命令 相关 
43:40 命令 Dword10 (CDW10): 命令 相关 
39:32 PRP Entry 2 (PRP2 ): 命令 中 第 二 个 地 址 条 目 (如 果 有 用 到 的 话 ) 
31:24 PRP Entry 1 (PRP1): 命令 中 第 一 个 地 址 条 目 
23:16 MetadataPointer (MPTR): 连续 元 数据 缓冲 区 地 址 
( 续 ) 
字 节 描述 
15:8 保留 
7:4 Namespaceldentifier (NSID ) 
3:0 命令 Dword0 (CDW0): 所 有 命令 都 用 


对 每 个 NS 来 说 ， 都 有 一 个 4KB 大 小 的 数据 结构 来 描述 它 。 该 数据 结 
构 描述 了 该 NS 的 大 小 ， 整 个 空间 已 经 写 了 多 少 ， 每 个 LBA 的 大 小 ， 庙 
到 端 数据 保护 相关 设置 ， 以 及 该 NS 是 属于 某 个 控制 器 还 是 几 个 控制 器 
可 以 共享 等 。 


NS 由 主机 创建 和 管理 ， 每 个 创建 好 的 NS， 从 主机 操作 系统 角度 看 
来 ， 就 是 一 个 独立 的 磁盘 ， 用 户 可 在 每 个 NS 做 分 区 等 操作 。 


下 例 中 ， 整 个 闪存 空 间 划 分 成 两 个 NS，NS A 和 NS B， 操 作 系 统 看 
到 两 个 完全 独立 的 磁盘 ， 如 图 6-51 所 示 。 
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图 6-51 NVMe 子 系统 中 有 了 两 个 NS 


每 个 NS 是 独立 的 ， 逻 辑 块 大 小 可 以 不 同 ， 端 到 端 数据 保护 配置 也 
可 以 不 同 : 你 可 以 让 一 个 NS 使 用 保镖 ， 另 一 个 NS 不 使 用 保镖 ， 再 一 个 
NS 半 程 使 用 保镖 〈 见 6.6 节 ) 。 





其 实 ，NS 更 多 是 应 用 在 企业 级 ， 可 以 根据 客户 不 同 需求 创建 不 同 
特征 的 NS， 也 就 是 在 一 个 SSD 上 创建 出 若干 个 不 同 功能 特征 的 磁盘 
NS) 供 不 同 客户 使 用 。 


NS 的 另外 一 个 重要 使 用 场合 是 : SR-IOV. 


什么 是 SR-IOV? 英文 全 称 为 Single Root-IO Virtualization, SR-IOV 
技术 允许 在 虚拟 机 之 间 高 效 共 享 PCIe 设 备 ， 并 且 它 是 在 硬件 中 实现 的 ， 
可 以 获得 能 够 与 本 机 性 能 妮 美 的 IO 性 能 。 单 个 IO 资 源 (单个 SSD) 可 由 
许多 虚拟 机 共享 。 共享 的 设备 将 提供 专用 的 资源 ， 并 且 还 使 用 共享 的 通 
用 资源 。 这 样 ， 每 个 虚拟 机 都 可 访问 唯一 的 资源 。 


如 图 6-52 所 示 ， 该 SSD 作 为 PCIe 的 一 个 Endpoint， 实 现 了 一 个 物理 
fe (Physical Function; PF) ， 有 4 个 虚拟 功能 《Virtual Function, 
VF) 关联 该 PF。 每 个 VF， 都 有 自己 独 享 的 NS， 还 有 公共 的 NS (NS 
E) 。 此 功能 使 得 虚拟 功能 可 以 共享 物理 设备 ， 并 在 没有 CPU 和 虚拟 机 
管理 程序 软件 开销 的 情况 下 执行 IO。 关 于 SR-IOV 的 更 多 知识 ， 这 里 就 


不 展开 了 ， 我 们 只 需 知 道 NVMe 中 的 NS 有 用 武之 地 就 可 以 。 
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图 6-52 SR-IOV 


对 一 个 NVMe 子 系统 来 说 ， 除 了 包含 若干 个 NS， 还 可 以 有 若干 个 
SSD 控 制 器 。 注 意 ， 这 里 不 是 说 一 个 SSD 控 制 器 有 多 个 CPU， 而 是 说 一 
个 SSD 有 几 个 实现 了 NVMe 功 能 的 控制 器 


如 图 6-53 所 示 ， 一 个 NVMe 子 系统 包含 了 两 个 控制 器 ， 分 别 实现 不 
同 功 能 (也 可 以 是 相同 功能 ) 。 整 个 闪存 空间 分 成 3 个 NS， 其 中 NS A 由 
控制 器 0 (左边 ) 独 享 ，NS C 由 控制 器 1 (右边 ) 独 享 ， 而 NS B 是 两 者 
共享 。 独 享 的 意思 是 说 只 有 与 之 关联 的 控制 器 才能 访问 该 NS， 别 的 控 
制 器 是 不 能 对 其 进行 访问 的 ， 图 6-53 中 控制 器 0 是 不 外 E 对 NS C 进 行 读 写 
操作 的 ， 同 样 ， 控 制 器 1 也 不 能 访问 NS A; 共享 的 意思 是 说 ， 该 NS (这 
里 是 NS B)〉 是 可 以 被 两 个 控制 费 共 同 访问 的 。 对 共享 NS， 由 于 几 个 控 
制 器 都 可 以 对 它 进行 访问 ， 所 以 要 求 每 个 控制 器 对 该 NS 的 访问 都 是 原 
子 操 作 ， 从 而 避免 同步 问题 
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图 6-53 NVMe 子 系统 中 有 两 个 控制 器 


事实 上 ， 一 个 NVMe 子 系统 ， 除 了 可 以 有 阁 干 个 NS， 除 了 可 以 有 葫 
二 个 控制 器 ， 还 可 以 有 知 干 个 PCIe 接 口 。 


与 前 面 的 架构 不 一 样 ， 图 6-54 的 架构 是 每 一 个 控制 器 都 有 上 自己 的 
PCIe 接 口 ， 而 不 是 两 者 共享 一 个 。Dual Port， 双 端口 ， 在 SATA SSD 上 
没有 见 过 吧 。 这 两 个 接口 往 上 有 可 能 连 着 同一 个 主机 ， 也 可 能 连 着 不 同 
的 主机 。 现 在 能 提供 Dual PCIe Port 的 SSD 接 口 只 有 SFF-8639 (关于 这 个 
接口 ， 可 参看 www.ssdfans.com 站 内 文章 《SFF-8639 接 口 来 玲 》) , 18 
叫 U.2， 它 支持 标准 的 NVMe 协 议和 Dual-Port。 
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图 6-54” 双 控制 器 和 双 端 口 NVMe 子 系统 
图 6-55 是 两 个 PCIe 接 口 连 着 一 个 主机 的 情况 。 
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图 6-55” 双 端口 子 系统 连接 主机 
为 什么 要 这 么 玩 ? 
我 认为 ， 一 方面 ， 主 机 访问 SSD， 可 以 双管齐下 ， 性 能 可 能 更 好 


点 。 不 过 对 访问 NS B 来 说 ， 同 一 时 刻 只 能 被 一 个 控制 嚣 访问， 双管齐下 
Xium. 考虑 到 还 可 以 同时 操作 NS A 和 NS C， 人 性 能 或 多 或 少 会 有 所 提 








我 觉得 ， 更 重要 的 是 ， 这 种 双 接 口 见 余 设 计 可 以 提升 系统 可 靠 性 。 
假设 PCIe A 接 口 出 现 问题 ， 这 个 时 候 主 机 可 以 通过 PCIe BZCAETE BE, 4 
续 对 NS B 进 行 访问 。 当 然 了 ，NS A 是 无 法 访问 了 。 


如 果 主 机 突然 死机 怎么 办 ? 在 一 些 很 苛刻 的 场景 下 是 不 允许 主 机 宕 
机 的 。 但 是 ， 是 电脑 总 有 死机 的 时 候 ， 怎 么 办 ?最 直接 有 效 的 办 法 还 是 








采用 元 余 容 错 策略 : SSD 有 两 个 控制 器 ， 有 两 个 PCIe 接 口 ， 那 么 我 主机 
也 弄 个 双 主 机 ， 一 个 主机 挂 了 ， 由 另 一 个 主机 接管 任务 ， 继 续 执行 ， 如 
图 6-56 所 示 。 
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图 6-56” 双 端口 双 主 机 系统 
我 们 来 看 一 个 双 端 口 的 真实 产品 。 


2015 年 ，OCZ 发 布 了 业界 第 一 个 具有 双 端 口 的 PCle NVMe 的 SSD: 
Z-Drive 6000 系 列 〈 见 图 6-57) 。 
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图 6-57” 双 端口 SSD: Z-Drive 6000 


物理 上 ， 这 些 SSD 都 有 两 个 PCIe 端 口 ， 但 可 以 通过 不 同 的 固件 ， 
现 单 端 口 和 双 端 口 功能 。 


每 个 端口 可 以 连接 独立 的 主机 ， 主 机 端 有 两 个 独立 的 数据 通道 
(Data Path〉 对 闪存 空间 进行 访问 ， 如 果 其 中 一 个 数据 通道 发 生 故 障 ， 
OCZ 的 主机 热 交 换 CHot-swap) 技术 能 让 男 外 一 个 主机 无 颖 低 延 时 地 接 

管 任 务 。 有 些 应 用 ， 比 如 银行 金融 系统 、 在 线 交 易 处 理 COnLine 
Transaction Processing, OLTP) 、 在 线 分 析 处 理 (OnLine Analytical 
Processing, OLAP) 、 高 性 能 计算 〈High Performance Computing, 
HPC) 、 大 数据 等 ， 对 系统 可 靠 性 和 实时 性 要 求 非 常 高 ， 这 个 时 候 ， 带 
有 双 端 口 的 SSD 就 能 派 上 用 场 了 ， 如 图 6-58 所 示 。 
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帝 有 双 问 口 的 这 种 SSD， 主 要 是 面 癌 企业 用 户 ， 特 别 是 上 面 提 到 的 
那些 应 用 行业 。 对 我 们 普通 用 户 来 说 ， 我 感觉 就 没有 这 个 必要 使 用 双 端 
Ep. 


多 NS， 多 控制 器 ， 多 PCIe 接 口 ， 给 NVMe SSD 开 发 者 以 及 存储 架构 
师 带 来 很 大 的 发 挥 空间 。 给 不 同 的 NS 配置 不 同 的 数据 保护 机 制 ， 或 者 
虚拟 化 ， 或 者 使 用 见 余 容错 提高 系统 可 靠 性 ， 抑 或 别 的 设计 ，NVMe 提 
供 了 这 些 基础 设施 ， 怎 么 玩 就 看 你 的 想象 力 了 。 


6.8 NVMe over Fabrics 


注 : 本 书 NVMe over Fabricszb4) 85 FJ 42K Ej MemBlaze ht i jr) lg 4t 
生 ，SSDEFans 获 得 其 授权 收录 其 文章 ， 感 谢 路 回 峰 先生 对 我 们 的 信任 。 


NVMe 是 针对 新 型 的 Non-Volatile Memory〈 比 如 闪存 、3D XPoint 
SE) 而 量 身 定制 的 ， 对 于 今天 的 应 用 来 襄 ， 基 于 NVMe 协 议 的 SSD 可 以 
提供 对 性 能 、 延 迟 、IO 协 议 栈 开 销 的 完美 优化 。 一 个 SSD 高 达 几 十 万 其 
至 上 百 万 IOPS 的 随机 读 写 性 能 可 以 使 单机 应 用 用 户 体 验 飞速 提升 ， 但 往 
往 单 机 应 用 没 法 充分 地 填 满 这 么 多 带宽 。 


NVMe SSD 目 前 的 主要 应 用 之 一 是 全 闪存 阵列 ， 但 是 PCIe 接 口 并 不 
适合 存储 设备 的 横向 扩展 (Scale Out) : 想象 一 下 如 何 把 几 百 块 NVMe 
SSD 通 过 PCIe 接 入 一 个 存储 池 中 。 


按照 传统 的 模式 ， 将 少量 的 NVMe SSD 组 成 存储 节点 ， 再 通过 
iSCSI 连接 到 前 端 ， 如 图 6-59 所 示 。 
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图 6-59 ”传统 存储 连接 方式 


这 样 的 方式 带 来 一 个 问题 ，NVMe 未 来 的 小 目标 是 时 延 (Latency) 
做 到 10hs 以 内 ， 而 iSCSI 协议 〈 或 者 iSER、SRP) 的 时 延 是 100hs， 如 图 
6-60 所 示 。 
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Kl6-60 ”存储 设备 时 延 的 进化 
把 一 辆 法 拉 利 放 到 北京 早 高 峰 的 西直门 立交 桥 上 ， 你 什么 意思 ? 
NVMe over Fabrics 就 是 为 了 解决 这 个 问题 而 生 ( 见 图 6-61) . 
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图 6-61 NVMe over Fabrics (Æ) 与 传统 方式 协议 栈 ( 右 〉 比较 
NVMe over Fabrics 协 议定 义 了 使 用 各 种 通用 的 事务 层 协 议 来 实现 


NVMe 功 能 的 方式 。 在 协议 中 所 指 的 事务 层 包 括 了 RDMA、 
FibreChannel、PCIe Fabrics 等 实现 方式 。 


由 于 NVMe over Fabrics 协 议 的 这 种 灵活 性 ， 它 可 以 非常 方便 地 生长 
在 各 个 主流 的 事务 层 协议 中 。 不 过 由 于 不 同 的 互联 协议 本 号 的 特点 不 
同 ， 因 此 基于 各 种 协议 的 NVMe over Fabrics 的 具体 实现 都 是 不 同 的 。 一 
些 协议 本 号 的 协议 开销 较 大 ， 男 一 些 需 要 专用 的 硬件 网 络 设 备 ， 客 观 上 
限制 了 NVMe over Fabrics 协 议 在 其 中 的 推广 。 


虽然 有 众多 可 以 选择 的 互联 方式 ， 但 这 些 互 联 方式 按照 接口 类 型 可 
分 成 三 类 : 内 存 (Memory) 型 接口 、 消 息 (Message) 型 接口 和 消息 内 
存 混 合 〈Memory&Message) 型 接口 。 相 应 的 互联 类 型 和 例子 如 图 6-62 
Hz. 


在 这 些 众 多 的 事务 层 协 议 中 ， 重 点 介绍 一 下 RDMA。 
RDMA (Remote Direct Memory Access， 远 程 DMA) 通过 网 络 把 数据 直 
接 传 入 计算 机 的 存储 区 ， 降 低 了 CPU 的 处 理工 作 量 。 当 一 个 应 用 执行 
RDMA 读 或 写 请 求 时 ， 不 执行 任何 数据 复制 。 在 不 需要 任何 内 核 内 存 参 
与 的 条 件 下 ，RDMA 请 求 会 直接 从 运行 在 用 户 空 间 的 应 用 中 发 送 到 本 地 
网 卡 ， 然 后 经 过 网 络 传送 到 远程 网 卡 ， 如 图 6-63 所 示 。 
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图 6-62 存储 互联 方式 的 分 类 





图 6-63 ”用 RDMA 实 现 数 据 传输 


RDMA 对 于 NVMe over Fabrics 协 议 的 便利 性 体现 在 以 下 几 个 方面 : 
.提供 了 低 延 迟 、 低 抖动 和 低 CPU 使 用 率 的 事务 层 协 议 ; 


最 大 限度 利用 硬件 加 速 ， 避 免 软件 协议 栈 的 开销 ; 


:定义 了 丰富 的 可 异步 访问 的 接口 机 制 ， 这 对 于 提高 10 性 能 是 至 关 
重要 的 。 
RDMA 设 计 初 囊 就 是 为 了 高 性 能 、 低 延迟 访问 远 端 节点 的 ， 并 且 它 


的 语义 非常 类 似 本 地 DMA 的 过 程 ， 因 此 很 自然 就 可 以 将 RDMA 作 为 
NVMe 协 议 的 载体 ， 实 现 基 于 网 络 的 NVMe 协 议 。 





但 是 ， 毕 竟 基 于 网 络 的 传输 模型 与 本 地 的 PCIe 传 输 模 型 还 有 种 种 差 
异 ， 因 此 将 NVMe 协 议 拓 展 到 互联 层面 需要 解决 一 系列 问题 。 所 以 ， 综 


合 RDMA、FC 等 各 种 不 同事 务 层 协议 的 特点 ，NVMexpress Inc. 提 出 了 
NVMe over Fabrics 协 议 ， 这 是 一 个 完整 的 网 络 高 效 存 储 协议 。 


对 于 NVMe over Fabrics 协 议 来 说 ， 要 解决 下 面 几 个 问题 : 
1) 提供 对 于 不 同 互 联 透明 的 消息 和 数据 的 封装 格式 ; 

2) 将 NVMe 进 行 操作 所 需要 的 接口 方式 映射 到 互联 网 络 ; 
3) 解决 互联 网 络 的 节点 发 现 、 多 路 径 等 互联 引入 的 新 问题 。 


NVMe over Fabrics 协 议定 义 了 一 整套 数据 封装 方案 ， 与 传统 的 
NVMe 协 议 相 比 ， 这 套 封闭 方案 针对 互联 做 了 一 些 调整 和 适 配 。NVMe 
定义 了 一 套 异 步 的 由 软件 驱动 硬件 执行 相应 动作 的 异步 操作 机 制 ， 发 送 
和 完成 包 仅 仅 携 带 必 要 的 描述 ， 而 真正 的 数据 和 SGL 描 述 符 都 是 放 在 内 
存 中 并 且 由 硬件 通过 DMA 方 式 取 得 的 。 这 是 基于 PCIe 的 DMA 操 作 延 迟 
很 短 Cus) 的 前 提 设 计 的 。 然 而 在 互联 协议 中 ， 节 点 之 间 的 交互 时 间 
大 大 增加 ， 为 了 减少 两 个 节点 之 间 不 必要 的 交互 ， 发 送 请 求 可 以 直接 携 
带 附 加 的 数据 或 GL 描述 符 ， 完 成 请 求 也 可 以 携带 需要 回 传 的 数据 ， 节 
约 了 两 者 之 间 交 互 的 负担 。 


图 6-64 为 NVMe Fabric 命 令 数据 包 。 
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图 6-64 NVMe Fabric 命 令 数据 包 
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图 6-65 NVMe Fabric 响 应 数据 包 


与 此 同时 ， 为 了 减少 系统 交互 ， 在 NVMe over Fabrics 协 议 中 ， 完 成 
队列 没有 使 用 流 控 机 制 ， 因 此 需要 主机 在 发 送 新 命令 之 前 确保 完成 队列 
有 足够 的 可 用 空间 〈 这 点 跟 NVMe 把 SQ/CQ 都 放 在 主机 端 变化 挺 大 的 ， 
有 点 Host Base “Controller Base 的 意思 ) 。 











一 次 IO 的 传输 过 程 如 图 6-66 所 示 。 
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Optional 
Command | Command Data 
Status 

| Command ID | 


传输 相关 的 消息 


完成 队列 
(在 主机 内 存 ) 





封包 (capsule) 传输 
图 6-66 NVMe Fabric IO 传输 流程 示意 图 
1) 发 送 端 〈Initiator) 驱动 程序 封装 发 送 请 求 并 派发 给 硬件 。 
2) 发 送 端 硬件 将 发 送 请 求 发 到 目标 端 〈Target) 的 发 送 队 列 。 
3) 目标 端 控 制 器 处 理 完 成 IO 请 求 ， 并 准备 出 来 完成 请 求 派发 给 硬 








Me 








4) 目标 端 便 件 将 完成 请 求 发 到 发 送 端的 接收 队列 。 


由 于 发 送 请 求 和 完成 请 求 可 以 直接 携带 数据 ， 从 而 降低 了 互联 中 消 
耗 的 交互 时 间 。 


如 果 不 需 要 在 请 求 中 携带 数据 ， 也 可 以 由 目标 端 在 过 程 中 直接 从 发 
起 端 获得 相应 的 数据 ， 如 图 6-67 所 示 。 


通过 上 述 机 制 ，NVMe over Fabrics 协 议 实 现 了 对 于 NVMe 协 议 的 命 
令 和 数据 传输 的 扩展 。 


普通 的 NVMe 命 令 都 可 以 通过 这 套 机 制 映 射 ，NVMe 的 标准 命令 揪 
身 一 变 ， 就 成 为 互联 协议 的 命令 。 


不 过 还 是 有 一 些 场景 是 需要 特殊 考虑 的 ， 为 了 文 持 这 些 场景 ， 协 议 
扩展 了 NVMe 命 令 ， 增 加 了 与 互联 相关 的 5 个 命令 : Connect. Property 
Get/Set、 Authentication Send/Receive.» 





下 面 重点 说 一 说 Connect 和 Property Get/Set。 


在 NVMe over Fabrics 协 议 中 ， 约 定 每 个 发 送 队 列 都 与 一 个 接收 队列 
一 一 对 应 ， 不 允许 多 个 发 送 队 列 使 用 同一 个 接收 队列 。 发 送 接收 队列 对 
是 通过 Connect 命 令 来 创建 的 。Connect 命 令 携 带 Host NQN、NVM 
Subsystem NQN 和 Host Identifier 信 息 ， 并 且 可 以 指定 连接 到 一 个 静态 的 
控制 器 ， 或 者 连接 到 一 个 动态 的 控制 磊 。 一 个 主机 可 以 通过 不 同 的 Host 
NQN 或 不 同 的 Fabric 端 口 (Port) 建立 到 一 个 NVMSubsystem 的 多 重 连 
接 。 这 种 灵活 性 赋予 了 NVMe over Fabrics 极 大 的 灵活 性 。 


NVMe Namespace 
# of LBAs 






LBA Format/Size 
Global Unique Identifier 


L Misc. metadata settings 
2) mmm | NVMe 
Fabric NVMe Flash Types 
C= 


Namespace 
Port Controller ass T ) è Flash 
rivate e NG NVM 
e èe DRAM 


pesa Media Form 
Shared) * Chip 


Fabtic e SSD 
Port e NVDIMM 












图 6-67 ”目标 端 直接 从 发 起 端 获得 数据 


在 NVMe 协 议 中 ， 控 制 器 是 一 个 代表 与 主机 进行 沟通 的 接口 实体 。 
由 于 PCIe 协 议 是 一 种 树 状 拓扑 结构 ， 因 此 一 旦 控制 器 所 处 的 PCIe 端 口 定 
下 来 后 ， 接 口 所 关联 的 控制 右 就 完全 定 下 来 了 。 而 对 于 NVMe over 
Fabrics 协 议 来 说 ， 一 个 Fabric 的 端口 可 以 租 入 多 个 控制 嚣 ， 因 此 根据 需 
要 不 同 ， 可 以 选择 实现 静态 控制 句 或 动态 控制 器 。 动 态 控制 器 是 一 种 简 
单 的 模型 ， 适 用 于 对 主机 具有 相同 服务 特性 的 需求 。 静 态 控制 器 则 适用 
于 有 不 同 需要 的 场景 ， 发 起 者 〈Initiator) 可 以 查询 了 解 一 个 Fabric 端 口 
内 部 包含 的 静态 控制 器 各 目的 能 力 ， 然 后 选择 连接 到 指定 的 控制 器 以 满 
HANER. 


在 NVMe 协 议 中 ，PCIe 空 间 的 BAR0 (BAR1) 描述 了 一 段 内 存 空间 
用 于 对 控制 器 进行 基本 的 寄存 器 级 别 的 配置 。 由 于 Fabrics 结 构 没 有 对 应 
的 实现 ， 因 此 NVMe over Fabrics XE X. f Property Get/Set 分 别 表示 对 
控制 器 端 寄存 器 的 读 取 和 写 入 动作 。 


至 此 ，NVMe 的 标准 操作 就 完全 被 准确 和 高 效 地 映射 成 互联 网 络 所 
对 应 的 使 用 方式 了 。 为 了 能 满足 互联 网 络 的 发 现 机 制 ，NVMe over 
Fabrics 协 议定 义 了 发 现 服务 ， 用 于 让 发 起 者 主动 发 现 NVM 子 系统 和 对 
应 的 可 访问 的 Namespace。 这 个 服务 还 同时 用 于 支持 多 路 径 功 能 。 该 功 
能 依赖 于 一 个 特殊 的 配置 成 支持 发 现 服务 的 NVM 子 系统 。 发 起 者 可 以 
连接 到 该 服务 器 并 使 用 Discovery Log Page 命 令 来 获取 可 用 的 资源 。 














如 表 6-6 所 示 ， 可 以 看 出 NVMe 和 NVMe over Fabrics 的 不 同 实现 方 
Ie 
表 6-6 NVMe 与 NVMe Over Fabrics 的 区 别 





标识 符 Bus/Device/Function NVMe Qualified Name (NQN) 
发 现 机 制 通过 Discovery and Connect 命令 
队列 AE 基于 消息 

数据 传输 方式 仅 支持 SGL 

发 送 队 列 和 完成 队列 对 应 关系 -对 一 或 者 多 对 一 -对 一 

元 数据 存放 和 块 数据 连续 存放 或 者 单独 存放 和 块 数据 连续 存放 





是 否 支持 控制 器 向 主机 产生 中 断 不 支持 


NVMe 官 网 地 址 : http://www.NVMexpress.org/ o 


第 7 章 ”SSD 测 试 


本 章 将 介绍 常用 的 SSD 测 斌 软件、 研发 过 程 中 的 测试 流程 、 常 用 仪 
名 设备 及 测试 方法 等 。 


7.1 主流 SSD 测 试 软件 介绍 


7.1.1 SSD 性 能 测试 第 一 神器 一 一 FIO 








对 于 SSD 性 能 测试 来 襄 ， 最 好 的 工具 英 过 于 FIO 了。 


图 7-1 中 所 示 的 这 个 可 爱 的 小 伙 子 名 字 叫 Jens Axboe， 他 是 丹麦 哥 本 
哈 根 大 学 计算 机 系 没 毕业 的 学 生 ， 他 还 有 一 个 有 名 的 同乡 叫 Linus， 没 
想到 老乡 后 来 成 了 他 的 领导 。Jens 今 年 (2018 年 )41 岁 ，16 岁 开始 就 接 
触 Linuxz， 后 来 也 成 了 Linux 开 发 者 ， 现 在 是 Linux Kernel 大 拿 了 了， 负责 块 
设备 层 的 维护 。 这 个 块 设备 层 就 是 跟 我 们 SSD 关 系 最 紧密 的 层级 ， 联 系 
了 上 层 文 件 系统 和 下 层 设备 驱动 程序 。 他 开发 了 不 少 有 用 的 程序 ， 比 如 
Linux IO Scheduler 里 面 的 Deadline、CFQ Scheduler， 还 有 著名 的 王牌 测 
试 工具 FIO。Jens 曾 经 在 Fusion-IO、Oracle 等 公司 工作 ， 现 在 在 
Facebook。 阿 呆 听 说 硅谷 的 Facebook 给 码 农 的 薪水 是 最 高 的 。 








图 7-1 FIO 作 者 Jens 


FIO 是 Jens 开 发 的 一 个 开源 测试 工具 ， 功 能 非常 强大 ， 本 节 就 只 介 
绍 其 中 一 些 基 本 功能 : 线程 、 队 列 深 度 、Offset、 同 步 异 步 、DirectIO、 
BIO 。 


使 用 FIO 之 前 ， 首 先 要 有 一 些 SSD 性 能 测试 方面 的 基础 知识 。 
线程 指 的 是 同时 有 多 少 个 读 或 写 任务 在 并 行 执 行 ， 一 般 来 说 ，CPU 


里 面 的 一 个 核心 同一 时 间 只 能 运行 一 个 线程 。 如 果 只 有 一 个 核心 ， 要 想 
运行 多 线程 ， 只 能 使 用 时 间 切 片 ， 每 个 线程 跑 一 段 时 间 片 ， 所 有 线程 轮 


流 使 用 这 个 核心 。Linux 使 用 Jiffies 来 代表 一 秒 钟 被 划分 成 了 多 少 个 时 间 
片 ， 一 般 来 说 Jiffies 是 1000 或 100， 所 以 时 间 片 就 是 1 毫秒 或 10 毫 秒 。 


一 般 电 脑 发 送 一 个 读 写 命令 到 SSD 只 需要 几 微 秒 ， 但 是 SSD 要 花 几 
百 微 秒 甚至 几 叹 秒 才 能 执行 完 这 个 命令 。 如 果 友 一 个 读 写 命令 ， 然 后 线 
程 一 直 休 卢 ， 等 待 结果 回来 才 唤 醒 处 理 结 果 ， 这 叫 作 同步 模式 。 可 以 
想象 ， 同 步 模 式 是 很 浪费 SSD 性 能 的 ， 因 为 SSD 里 面 有 很 多 并 行 单元 ， 
比如 一 般 企 业 级 SSD 内 部 有 8 一 16 个 数据 通道 ， 每 个 通道 内 部 有 4 一 16 个 
并 行 逻 辑 单元 CLUN, Plane) ， 所 以 同一 时 间 可 以 执行 32 一 256 个 读 写 
命令 。 同 步 模 式 就 意味 着 ， 只 有 其 中 一 个 并 行 单元 在 工作 ， 暴 珍 天 物 。 


为 了 提高 并 行 性 ， 大 部 分 情况 下 SSD 读 写 采 用 的 是 异步 模式 。 就 是 
用 几 微 秒 发 送 命 令 ， 发 完 线程 不 会 傻 傻 地 在 那里 等 ， 而 是 继续 发 后 面 的 
命令 。 如 果 前 面 的 命令 执行 完了 ，SSD 通 知 会 通过 中 断 或 者 轮 询 等 方式 
告诉 CPU， 由 CPU 来 调用 该 命令 的 回调 函数 来 处 理 结 果 。 这 样 的 好 处 
是 ，SSD 里 面 几 十 上 百 个 并 行 单元 都 能 分 到 活 干 ， 效 率 暴 增 ，。 


不 过 ， 在 异步 模式 下 ，CPU 不 能 一 直 无 限 地 发 命令 到 SSD。 比 如 
SSD 执 行 读 写 如 果 发 生 了 卡 顿 ， 那 有 可 能 系统 会 一 直 不 停 地 发 命令 ， 几 
千 个 ， 甚 至 几 万 个 ， 这 样 一 方面 SSD 打 不 住 ， 另 一 方面 这 么 多 命令 会 很 
占 内 存 ， 系 统 也 要 挂 掉 了 。 这 样 ， 就 带 来 一 个 参数 叫 作 队列 深度 。 举 
个 例子 ， 队 列 深度 64 就 是 说 ， 系 统 发 的 命令 都 发 到 一 个 大 小 为 64 的 队 
列 ， 如 果 填 满 了 就 不 能 再 发 。 等 前 面 的 读 写 命令 执行 完了 ， 队 列 里 面 空 
出 位 置 来 ， 才 能 继续 填 命 令 。 

一 个 SSD 或 者 文件 有 大 小 ， 测 试 读 写 的 时 候 设 置 Offset 就 可 以 从 某 
个 偏 移 地 址 开始 测试 。 比 如 从 offset=4G 的 偏 移 地 址 开始 。 


Linux 读 写 的 时 候 ， 内 核 维护 了 缓存 ， 数 据 先 写 到 缓存 ， 然 后 再 后 
台 写 到 SSD。 读 的 时 候 也 优先 读 缓 存 里 的 数据 。 这 样 速度 可 以 加 快 ， 但 
是 一 旦 掉 电 ， 绥 存 里 的 数据 就 没 了 。 所 以 有 一 种 模式 叫 作 DirectIO， 跌 
过 缓存 ， 直 接 读 写 SSD。 


Linux 读 写 SSD 等 块 设备 使 用 的 是 BIO CBlock-IO) ， 这 是 个 数据 结 
构 ， 包 含 了 数据 块 的 逻辑 地 址 LBA， 数 据 大 小 和 内 存 地 址 等 。 


1.FIO 初 体验 









































一 般 Linux 系 统 是 自 带 FIO 的 ， 如 果 没 有 或 者 版 本 太 老 ， 要 自己 从 
https://github.com/axboe/fio 下 载 最 新 版 本 源 代 码 编译 安装 。 进 入 代码 主 
目录 ， 输 入 下 列 命令 就 编译 安装 好 了 。 





./configure;make && make install 





帮助 文档 用 下 面 命令 查看 : 





man fio 





先 来 看 一 个 简单 的 例子 : 





fio -rw=randwrite  -ioengine-libaio -direct=1 -thread-numjobs=1 -iodepth=64 -filene 





每 一 项 的 意思 都 可 以 从 fio 帮 助 文档 查 到 ， 这 里 的 参数 解释 如 下 : 
fio: 软件 名 称 。 


-rw=randwrite: 读 写 模式 ，randwrite 是 随机 写 测试 ， 还 有 | 
read， 顺 序 写 write， 随 机 读 randread， 混 合 读 与 等 。 


-ioengine=libaio: libaio 指 的 是 异步 模式 ， 如 有 果 是 同步 就 要 用 sync。 
-direct=1: 是 否 使 用 directIO。 


thread: 使 用 pthread_create 创 建 线程 ， 男 一 种 是 fork 创 建 进程 。 进 
程 的 开销 比 线程 要 大 ， 一 般 都 采用 thread 测 试 。 


—numjobs-1: 每 个 job 是 1 个 线程 ， 这 里 用 了 几 ， 后 面 每 个 用 -name 
指定 的 任务 就 开 几 个 线程 测试 。 所 以 最 终 线 程 数 = 任务 数 xnumjobs。 


—-jodepth-64: 队列 深度 64。 


--filename-/dev/sdb4: 数据 写 到 /dev/sdb4 这 个 盘 〈( 块 设备 ) 。 这 里 
可 以 是 一 个 文件 名 ， 也 可 以 是 分 区 或 者 SSD 。 


-size=10G: 每 个 线程 写 入 数据 量 是 10GB。 


-name-jobl: 一 个 任务 的 名 字 ， 名 字 随 便 起 ， 重 复 了 也 没关系 。 这 
个 例子 指定 了 job1 和 job2， 建立 了 两 个 任务 ， Stm name-jobl2 NNS 
数 。-name 之 后 的 就 是 这 个 任务 独 有 的 参数 。 


--offset=0MB: 从 偏 移 地 址 9MB 开 始 写 


-bs-4k: 每 一 个 BIO 命令 包含 的 数据 大 小 是 4KB。 一 般 4kB IOPS 测 
试 ， 就 是 在 这 里 设置 。 


--output TestResultlog: 日 志 输 出 到 TestResult.log。 
2.FIO 结 果 解 析 


我 们 来 看 一 个 FIO 测 试 随 机 读 的 结果 。 命 令 如 下 ， 两 个 任务 并 行 测 
pu n 异步 模式 ， 每 个 任务 测试 数据 1GB， 每 个 数据 块 
4KB。 所 以 ， 个 命令 是 在 测试 两 个 线程、 队列 深度 64 下 的 4kB 随 机 读 
IOPS 。 





# fio -rw-randread -ioengine-libaio -direct=1  -iodepth-64 -filename-/dev/sdc -size: 
jobi: (g=0): rw-randread, bs-4K-4K/A4K-4K/A4K-4K, ioengine-libaio, iodepth-64 
job2: (g=0): rw-zrandread, bs-4K-4K/A4K-4K/AK-4K, ioengine-libaio, iodepth-64 
fio-2.13 
Starting 2 processes 
Jobs: 2 (f-2) 
jobi: (groupid=0, jobs-1): err- 0: pid-27752: Fri Jul 28 14:16:50 2017 
read : i0-1024.0MB, bw-392284KB/s, iops-98071, runt- 2673msec 
slat (usec): min=6, max-79, avg- 9.05, stdev- 2.04 
clat (usec): min-148, max-1371, avg-642.89, stdev-95.08 
lat (usec): min-157, max-1380, avg-651.94, stdev-95.16 
clat percentiles (usec): 
| 1.00th-[ 438], 5.00th-[ 486], 10.00th-[ 516], 20.00th-[ 564], 
| 30.00th-[ 596], 40.00th-[ 620], 50.00th-[ 644], 60.00th-[ 668], 
| 70.00th-[ 692], 80.00th-[ 724], 90.00th-[ 756], 95.00th-[ 796], 
| 99.00th-[ 884], 99.50th-[ 924], 99.90th-[ 1004], 99.95th-[ 1048], 
| 99.99th-[ 1144] 
lat (usec) : 250-0.019, 500=6.82%, 750=81.14%, 1000-11.93?6 
lat (msec) : 2-0.1196 


cpu : usr-z9.099, sys=90.08%, ctx-304, majf-0, minf-98 

IO depths : 120.19, 2-0.19, 4-0.19*, 8-0.19, 16=0.1%, 32-0.19, »-64-100.09* 
submit : 0-0.09,, 4-100.09,, 8=0.0%, 16=0.0%, 32-0.09,, 64-0.09, »-64-0.096 
complete : 0-0.09*, 4=100.0%, 8-0.09*, 16-0.09, 32-0.09*, 64-0.19, »-64-0.09* 
issued : total-r-262144/w-0/d-0, shortzrz0/w-0/d-0, dropzrz0/w-0/d-0 
latency : target-0, window-0, percentile-100.00?,, depth-64 


job2: (groupid-0, jobs-1): err- 0: pid-27753: Fri Jul 28 14:16:50 2017 
read : i0-1024.0MB, bw-447918KB/s, iops-111979, runt- 2341msec 
slat (usec): min-5, max-41, avg- 6.30, stdev- 0.79 
clat (usec): min-153, max-1324, avg-564.61, stdev-100.40 


lat (usec): min-159, max-1331, avg-570.90, stdev-100.41 

clat percentiles (usec): 

1.00th-[ 354], 5.00th-[ 398], 10.00th-[ 430], 20.00th-[ 474], 
30.00th-[ 510], 40.00th-[ 540], 50.00th-[ 572], 60.00th-[ 596], 
70.00th-[ 620], 80.00th-[ 644], 90.00th-[ 684], 95.00th-[ 724], 
99.00th-[ 804], 99.50th-[ $844], 99.90th-[ 932], 99.95th-[ 972], 
99.99th-[ 1096] 

lat (usec) : 250-0.039, 500-27.5796,, 750-69.579$, 1000-2.7996 

lat (msec) : 2-0.0496 


cpu : UuSr-11.6296, sys=75.60%, ctx-35363, majf-0, minf-99 

IO depths : 120.19, 2-0.19, 4-0.19*, 8-0.19, 16=0.1%, 32-0.19, »-64-100.09* 
submit : 020.09, 4-100.09,, 8=0.0%, 16=0.0%, 32=0.0%, 64-0.09*, »-64-0.096 
complete : 0=0.0%, 4=100.0%, 8-0.0*, 16-0.09, 32-0.09*, 64=0.1%, »-64-0.09* 
issued : total-r-262144/w-0/d-0, short-zr-z0/w-0/d-0, dropzrz0/w-0/d-0 
latency : target-0, window-0, percentile-100.00?,, depth-64 


Run status group © (all jobs): 
READ: i0-2048.0MB, aggrb-784568KB/s, minb-392284KB/s, maxb-447917KB/s, mint-2344 


Disk stats (read/write): 
Sdc: ios-521225/0, merge-0/0, ticks-277357/0, in queue-18446744073705613924, uti 














FIO 会 为 每 个 Job 打 印 统 计 信息 。 最 后 面 是 合计 的 数值 。 我 们 一 般 看 
重 的 是 总 的 性 能 和 延迟 。 


首先 看 的 是 最 后 总 的 带宽 ， aggrb=784568KB/s， 算 成 4KB 就 是 196k 
IOPS 。 








再 来 看 看 延迟 (Latency) 。 Slat 是 发 命令 时 间 ，slat (usec) : 
min=6，max=79，avg=9.05，stdev=2.04 说 明 最 短 时 间 6 微 秒 ， 最 长 79 微 
秒 ， 平 均 9 微 秒 ， 标 准 差 2.04。clat 是 命令 执行 时 间 ，lat 束 是 总 的 延迟 。 
看 得 出 来 ， 读 的 平均 延迟 在 571 微 秒 左 右 。 


clat percentiles (usec) 给 出 了 延迟 的 统计 分 布 。 比 如 90.00th=[684] 
说 明 90% 的 读 命 令 延 迟 都 在 684 微 秒 以 内 。 


3. 用 FIO 做 数据 校 验 


用 FIO 可 以 检验 写 入 数据 是 否 出 错 。 用 -verify=str 来 选择 校 验算 法 ， 
有 md5、crc16、crc32、crc32c、crc32c-intel、crc64、crc7、sha256、 
sha512、shal 等 。 为 了 校 验 ， 需 要 用 do_verify 参 数 。 如 果 是 写 ， 那 么 
do_verify=1 就 意味 着 写 完 再 读 校 验 ， 这 种 会 很 占 内 存 ， 因 为 FIO 会 把 每 
个 数据 块 的 校 验 数据 保存 在 内 存 里 。do_verify=0 时 只 写 校 验 数据 ， 不 做 


读 校 验 。 


读 的 时 候 如 果 do_verify=1， 那 么 读 出 来 的 数据 都 会 做 校 验 值 检 查 ; 





如 果 do_verify=0， 则 只 读数 据 ， 不 做 检查 。 


另外 ，verify=meta 时 ，fio 会 在 数据 块 内 写 入 时 间 惟 、 逻 辑 地 址 等 ， 
此 时 还 能 用 verify_pattern 指 定 写 入 数据 pattern 。 


4.FIO 其 他 功能 


FIO 功 能 非常 强大 ， 可 以 通过 man 来 查看 每 一 个 功能 ， 也 有 网 页 版 
Tit HJ) X E https://linux.die.net/man/1/fio 。 


5.FIO 配 置 文件 


前 面 的 例子 都 是 用 命令 行 来 测试 ， 其 实 也 可 以 用 配置 文件 把 这 些 参 
数 写 进去 。 比 如 新 建 FIO 配 置 文件 testlog 内 容 如 下 : 





[global] 
filename-/dev/sdc 
direct=1 
iodepth=64 

thread 
rw=randread 
ioengine=libaio 
bs=4k 

numjobs=1 
size=10G 


[job1] 
name=job1 
offset=0 


[job2] 
name-job2 
offset-106G 


;--end job file 








保存 后 ， 只 需要 fio test.log 就 能 执行 测试 任务 了 ， 是 不 是 很 方便 ? 


7.1.2 AS SSD Benchmark 


AS SSD Benchmark 是 一 款 来 自 德 国 的 SSD 专 用 测试 软件 ， 可 以 测试 
连续 读 写 、4K 对 齐 、4KB 随 机 读 写 和 响应 时 间 的 表现 ， 并 给 出 一 个 综合 
评分 。 它 有 两 种 模式 可 选 ， 即 MB/s 与 IOPS， 如 图 7-2 所 示 。 
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图 7-2 AS SSD Benchmark 测 试 指 标 


AS SSD Benchmark 在 测试 时 一 共 会 生成 和 写 入 5GB 的 测试 数据 文 
件 ， 所 有 3 个 测试 传输 率 项 目 都 是 去 读 写 这 些 数 据 文件 来 换算 速度 的 。 
其 4KB QD64 主 要 是 用 来 测 NCQ (Native Command Queuing, HEMS 
队列 ) 差距 的 。IDE 模 式 下 就 和 普通 4KB 随 机 没有 任何 区 别 。 由 于 每 个 
测试 都 需要 进行 一 定 大 小 的 数据 读 写 ， 硬 盘 性 能 越 低 ， 测 试 需要 花费 的 
时 间 就 越久 ， 拿 机 械 硬 盘 来 跑 这 个 测试 并 不 适宜 ， 跑 完全 程 大 约 需要 1 
个 小 时 左右 。 寻 址 时 间 测 试 ， 读 取 是 测试 寻 址 随机 的 4KB 文 件 〈 全 盘 
LBA 区 域 ) ， 写 入 是 测试 寻 址 随机 的 512B 文 件 〈 指 定 的 1GB 地 址 苑 
围 ) 。 注 意 ， 运 行 AS SSD 基 准 测 试 至 少 需 要 2GB 的 空 几 空间。 


AS SSD Benchmark 除 了 可 以 测试 SSD 的 性 能 外 ， 还 可 以 检测 出 SSD 
的 固件 算法 、 是 否 打开 AHCI 模 式 、 是 否 进 行 4K 对 齐 等 〈 见 图 7-3) ， 是 
目前 应 用 十 分 广泛 的 SSD 测 试 软 件 。 














图 7-3 AS SSD Benchmark 测 试 对 象 信息 
AS SSD Benchmark 使 用 的 测试 数据 是 随机 的 。 


7.1.3 ATTO Disk Benchmark 


ATTO Disk Benchmark7é — 3 ff 28. Zj FJ B fA Pe 4 e S pr UI EAE, 
可 以 用 来 检测 硬盘 、U 盘 、 存 储 卡 及 其 他 可 移动 磁盘 的 读 取 及 写 入 速 
率 。 该 软件 使 用 了 不 同 大 小 的 数据 测试 包 ， 数 据 包 按 512B、1K、2K 直 
到 8K 进 行 读 写 测试 ， 测 试 完成 后 数据 用 柱状 图 的 形式 表达 出 来 ， 体 现 
文件 大 小 比例 不 同 对 磁盘 速度 的 影响 。 


ATTO 测 试 是 极限 情况 下 的 磁盘 持续 读 写 性 能 ， 及 用 的 测试 模型 具 
有 很 高 的 可 压缩 性 。ATTO 默 认 训 试 全 0 数据 。 它 的 应 用 截图 如 图 7-4 所 
ZN o 
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图 7-4 ATTO 应 用 截图 











7.1.4  CrystalDiskMark 





CrystalDiskMark 软 件 是 一 个 测试 硬盘 或 者 存储 设备 的 小 巧 工具 ， 测 
试 存 储 设 备 大 小 和 测试 次 数 都 可 以 选择 。 测 试 项 目 里 分 为 ， 持 续 传 输 率 
测试 〈 块 单位 1024KB) ， 随 机 512KB 传 输 率 测试 ， 随 机 4KB 测 试 ， 随 机 
4KB QD32〔 队 列 深度 32) 测试 ， 如 图 7-5 所 示 。CrystalDiskMark 默 认 运 
行 5 次 ， 每 次 100MB 的 数据 量 ， 取 最 好 成 绩 。CrystalDiskMark 软 件 测试 
前 ， 同 样 会 生成 一 个 测试 文件 (大 小 由 用 户 自 行 设置 ) 。 一 般 来 说 ， 设 
置 得 越 大 ， 数 据 缓存 的 干扰 越 少 ， 成 绩 就 更 能 反映 SSD 的 真实 性 能 ， 不 
过 缺点 是 会 影响 SSD 的 耐久 度 《〈 写 入 太 多 数据 影响 PE) 。 所 以 一 般 测 
试 时 都 采纳 软件 默认 值 。 











CrystalDiskMark 
测试 软件 


测试 次 数 ~ 
A CrystalDiskMark 
文件 (F) ”编辑 (E) / 主题 (T) 


测试 文件 大 小 






[= 


AH(H) Language 


6 [V] Goom Ivi C:Hard Disk [NTFS] 


All | 


4 394.8 408.3 
s 315.0 368.1 


测试 全 部 项 目 


顺序 传输 


随机 512K 


随机 AK 





图 7-5 CrystalDiskMark 测 试 指标 


软件 默认 测试 数据 为 不 可 压缩 数据 。 如 果 设 置 选项 中 选择 了 <All 
0x00，0Fill> 或 <All 1x00.1Fil>， 测 试 成 绩 会 大 不 一 样 。 其 实 就 是 把 数 


据 模 型 改 为 全 部 是 可 压缩 连续 数据 ， 这 跟 ATTO 测 试 原理 一 样 ， 测 试 出 
来 成 绩 相 当 不 错 ， 但 实际 参考 意义 并 不 大 。 修 改 数 据 模型 后 有 一 个 明显 
的 特征 ，CDM 的 标题 栏 上 会 直接 标注 出 来 ， 如 图 7-6 所 示 。 





Ez. CrystalDiskMark 5.2.2 x54 


文件 四 “设置 (9 EWT) ”帮助 (H)” 语 高 (L)(Language) 


o^ 5[v] 1GiB C: 35% (167/484GiB) [v] '5 [v] 1GiB | C: 3596 (167/484GiB) 
Read [MB/s] Write [MB/s] 


| Read [MB/s] Write [MB/s] 
4 518.9 425.7 520.7 424.7 


1348/4 :290.6 | #134817 :281.1 





4| 390.3 396.8 | « 392.6 416.7 
alld9.92 45.81 | 4:20.16 144.74 


将 软件 设置 成 ，<AlL1，0x0 Fill> 或 者 <All 0x0 Fill», 
其 实 就 是 把 数据 模型 改 成 全 部 是 0 或 1 可 压缩 连续 数据 。 


图 7-6 ”CrystalDiskMark 设 置 不 同 填充 Pattern 











7.1.5 PCMark Vantage 


PCMark Vantage 可 以 衡量 各 种 类 型 PC 的 综合 性 能 。 从 多 媒体 家 庭 娱 
乐 系统 到 笔记 本 ， 从 专业 工作 站 到 高 端 游戏 平台 ， 无 论 是 专业 人 士 还 是 
普通 用 户 ， 都 能 通过 PCMark Vantage 透 彻 了 解 其 性 能 ， 从 而 发 挥 最 大 性 
能 。 测 试 内 容 可 以 分 为 以 下 三 个 部 分 : 

1) 处 理 器 测试 : 基于 数据 加 密 、 解密 、 压 缩 、 解 压缩 、 图 形 处 
理 、 音 频 和 视频 转 码 、 文 本 编辑 、 网 页 演 染 、 邮 件 功 能 、 处 理 器 人 工 智 
能 游戏 测试 、 联 系 人 创建 与 搜索 。 

2) 图 形 测 试 : 基于 高 清 视 频 播 放 、 显 卡 图 形 处理 、 游 戏 测试 。 

3) 硬盘 测试 : 使 用 Windows Defender. (Alan Wake》 游戏、 图 像 
导入 、Windows Vista 局 动 、 视 频 编 辑 、 媒 体 中 心 使 用 、Windows Media 


Player 搜 索 和 归 类 ， 以 及 某 些 程序 的 启动 (如 Office Word 2007. Adobe 
Photoshop CS2、Internet Explorer. Outlook 2007) . 





7.1.6 IOMeter 


IOMEeter 是 一 个 单机 或 者 集群 的 TO 子 系统 测量 和 描述 工具 。 与 前 面 
介绍 的 测试 软件 相 比 ，IOMeter 在 测试 软件 中 是 属于 比较 自由 的 ， 用 户 
可 以 按照 测试 需求 去 配置 测试 磁盘 数据 范围 、 队 列 深 度 、 数 据 模 式 〈 可 
压缩 或 者 不 可 压缩 ， 有 些 版 本 支持 ， 有 些 老 版 本 不 支持 ) 、 测 试 模 式 

(随机 或 者 顺序 访问 ) 、 读 写 测试 比例 、 随 机 和 顺序 访问 比例 ， 以 及 测 
试 时 间 等 。IOMeter 应 用 截图 如 图 7-7 所 示 。 
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图 7-7 IOMeter 应 用 截图 
本 地 IO 性 能 测试 : 





1) 启动 程序 ， 在 windows 上 单 击 IOMeter 图 标 ; 
2) 在 Disk Targets 页 中 选择 一 个 驱动 器 ; 


3) 在 Access Specifications 页 中 选择 一 个 需要 的 测试 项 目 ; 


4) 在 Results Display 页 中 设置 Update Frequency (Seconds) ， 即 设 
置 多 长 时 间 统 计 一 次 测试 结果 ， 如 有 果 不 设 置 ， 不 但 在 测试 期 间 不 显示 测 
试 结果 ， 而 且 在 测试 结束 后 在 测试 结果 文件 中 也 没有 数据 ; 





"Total I/Os per Second: 数据 存 取 速度 ， 该 值 越 大 越 好 ; 
"Total MBs per Second: 数据 传输 速度 ， 该 值 越 大越 好 ; 
Average I/O Response Time: 平均 响应 时 间 ， 该 值 越 小 越 好 ; 
CPU Utilization: CPU 占用 率 ， 越 低 越 好 ; 


5) 单 击 工具 栏 中 的 Start Tests 按 钮 ， 选 择 一 个 测试 结果 输出 文件 后 
开始 一 个 测试 (一般 一 次 测试 运行 10 分 钟 即 可 》〉; 





6) 测试 完成 后 单 击 “stop” 按 钮 停止 所 有 测试 ; 


7) 查看 测试 结果 ， 由 于 IOMeter 没 有 提供 一 个 GUI 的 查看 测试 报告 
的 工具 。 可 以 使 用 Excel 打 开 测 试 结果 文件 “csv”， 然 后 利用 Excel 的 图 标 
工具 整理 测试 结果 。 或 者 使 用 IOMeter 提 供 “Import Wizard for MS 
Access” 将 测试 结果 导入 一 个 Access 文 件 。 


7.2 ”验证 与 确认 

SSD 从 设计 、 固 件 到 成 品 出 货 ， 少 不 了 各 种 测试 。 中 文博 大 精深 ， 
将 这 些 都 叫 测试 ， 到 英文 里 则 会 对 应 N 个 词 : Simulation. Emulation. 
Verification, Validation. Test. QA. 

先 聊 一 下 Verification 和 Validation 。 

为 了 帮助 理解 ， 先 简单 说 一 下 必 片 设计 的 过 程 : 

1) 需求 : 老大 们 商量 这 颗 主 控 要 实现 什么 功能 。 

2) 架构 : Architecture 出 设计 图 。 
设计 : ASIC 把 各 种 内 部 、 外 部 IP 攒 起 来 。 

4) TapeOut. 

5) SAEK. 

在 设计 阶段 ， 使 用 Emulator《〈 以 后 介绍 ) 或 者 FEFPGA 进 行 测试 的 过 
Te 中 文 翻译 为 “验证 ” 目的 是 为 了 帮助 ASIC 把 事情 


在 父 片 回来 以 后 ， 使 用 开发 板 进 行 测试 的 过 程 ， 叫 Validation， 中 
文 翻译 为 “确认 ”一 一 目的 是 确保 ASIC 把 事情 给 做 对 了 。 


在 Verification 阶 段 ， 一 旦 发 现 问 题 ，ASIC 工 程 师 可 以 马上 fix， 然 
后 通过 升级 Emulator 的 database 或 者 更 新 FPGA 的 bit file 把 新 的 RTL 交 给 
测试 再 验证 一 遍 ， 一 直到 做 对 为 止 。 


相同 的 问题 ， 如 果 是 Validation 阶 段 才 发 现 ， 则 只 能 通过 重新 
TapeOut (mental fix) 或 者 让 固件 “ 打 掩 护 ” 了 7。 
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7.3 ju A Da 
7.3.1 Emulator 


在 SSD 主 控 芯 片 设 计 阶 段 ， 除 了 RTL Simulation 以 外 ， 通 常 还 会 进 
行 Verification 的 工作 ， 而 Verification 中 就 会 使 用 到 Emulator 或 者 FEFPGA。 
先 说 一 下 Simulation 和 Emulation 的 区 别 : 


“Simulator 是 做 仿真 ， 基 于 软件 ， 重 点 是 实现 已 片 的 功能 并 输出 结 
Ñ; 


Emulator 是 做 模拟 ， 用 硬件 实现 ， 通 过 模拟 实现 心 片 的 内 部 设计 ， 
从 而 实现 功能 并 输出 结果 。 


图 7-8 为 业界 比较 知名 的 Emulator 提 供 商 Cadence 旗 下 的 Emulator 产 
品 Palladium 系 列 。 





cadence 





图 7-8 Emulator 





按照 官方 的 说 法 ， 它 可 以 做 Simulation、Simulation Acceleration 和 
Emulation. 


在 设计 SSD 主 控 芯 片 时 ，Emulator 和 FPGA 都 可 以 用 于 ASIC 
Verification， 那 这 两 者 区 别 有 哪 些 ? 个 人 理解 ， 主 要 有 这 么 几 点 : 


, T 价格 : Emulator K A 73 5& zuZ 9l], FPGACKBEE ACT $73 9€ 76 
2k 5; 


2) B&7J: Emulator 的 逻辑 可 以 到 23 亿 门 ( 这 是 老 球 Palladium XP, 
最 新 款 据 Palladium Z1 达 到 了 90 亿 门 )，FPGA 大 概 是 百 万 门 级 别 。 对 应 
到 SSD 主 控 里 ， 一 块 FPGA 可 能 只 能 模拟 前 段 CPCIe-NVMe) ， 后 端 
(闪存 Controller) 可 能 需要 另外 一 块 FPGA， 而 Emulator， 只 要 你 想 
塞 ， 整 个 ASIC 的 RTL 塞 进入 也 是 妥 妥 的 ; 


3) Debug: Emulator 可 以 比较 方便 地 导出 ASIC 工 程 师 所 需要 的 信和 号 
ee 而 FPGA 在 连接 协议 分 析 仪 、 逻 辑 分析 仪 方面 比 
5:71 f s 


4) 速度 : Emulator 虽 然 好 ， 但 是 速度 比 FPGA 要 慢 得 多 一 一 来 个 传 
说 中 的 例子 : 如 果 FPGA 上 boot 一 个 OS 要 几 个 小 时 ， 那 Emulator 上 boot 一 
个 OS 可 能 要 几 天 ; 


5) 档次 : FPGA 是 个 公司 就 能 有 ，Emulator 则 绝对 是 实力 的 彰显 
一 有 领导 、VIP 来 参观 的 时 候 ， 给 参观 一 下 ， 顿 时 就 跟 其 他 公司 拉 开 
差距 了 ; 


归根 结 底 ，Emulator 和 FPGA 都 是 很 好 的 工具 ， 需 要 正确 、 合 理 地 
使 用 ， 才 能 更 好 地 在 芯片 研发 阶段 发 现 更 多 ASIC 问 题 。 


Emulator (或 FPGA) 的 另 一 个 好 处 是 ， 固 件 团 体 可 以 使 用 这 些 工 
有 具 提前 开始 开发 ， 不 用 等 必 片 回来 以 后 ， 先 经 历 “ 不 死 也 要 脱 层 皮 ”的 
然后 才 开 始 “ 遇 到 问题 不 知道 硬件 原因 还 是 代码 原因 的 ” 开 
zo E. 


Emulator 























致力 于 构建 SSD 主 控 和 谐 团 队 ! 


7.3.2 ”协议 分 析 仪 
要 测试 SSD， 需 要 很 多 很 多 不 一 样 的 设备 ， 需 要 花 很 多 很 多 的 银 
F: 


目前 市 面 上 的 SSD 接 口 挺 多 ， 如 SATA、SAS、PCIe、U.2、M.2、 
MSATA, GumsStick, 














HKE Bl 2j NAK: SATA/SAS 和 PCIe。 


—BISSD3X12—BNx42)BU. "P. JB BÜNWNLAESATA/SASAIPCIe 
这 些 配 上 AHCI 或 者 NVMe， 中 段 就 是 FTL， 后 端 就 是 闪存 控制 器 。 


FIL 是 纯 软 件 实现 ， 测 这 个 基本 上 不 需要 什么 设备 。 


后 端 跟 内 存 打交道 ， 主 要 用 逻辑 分 析 仪 ， 另 一 种 巨 贵 的 仪器 ， 这 里 
不 展开 说 。 


这 里 先 聊 两 种 协议 分 析 仪 CAnalyzer) , SATA/SAS Analyzer 和 
PCIe Analyzer. 


Analyzer 是 什么 ? 你 可 以 这 么 理解 ， 以 SATA Analyzer7Jf/], SATA 
Host 和 SATA SSD 之 间 传 输 命令 和 数据 ， 就 像 两 个 人 在 打 电 话 ， 不 在 这 
个 线路 上 的 你 ， 正 常情 况 下 是 听 不 到 他 们 说 了 什么 的 。 但 通过 
E 你 就 可 以 完 完 整整 地 知道 他 们 之 间 的 对 话 ， 同 时 还 不 会 让 他 
门 俩 察觉 。 


SATA/SAS Analyzer 的 供应 商 ， 平 时 接触 比较 多 的 有 两 家 : 
SerialTek 和 LeCroy。 





如 图 7-9 所 示 为 SerialTek SATA/SAS Analyzer. 





[7-9  SerialTek SATA/SAS 协 议 分 析 仪 





连 在 主机 和 SSD 之 间 的 示意 图 如 图 7-10 所 示 。 









测试 主机 


Ethernet 
or PCle 


协议 分 析 仪 





sumens 


图 7-10 SATATMOU Br EZZ XS 
抓 到 的 Trace 是 这 个 样子 ， 如 图 7-11 所 示 。 
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图 7-11 SATA Trace 示例 
PCIe Analyzer 的 供应 丙 主 要 有 三 家 : LeCroy、SerialTek 和 Agilent。 


如 图 7-12 所 示 为 LeCroy 的 PCIe Analyzer。 





图 7-12 LeCroy PCIe 协 议 分 析 仪 


它 配 有 各 种 Interposer 卡 ， 如 图 7-13 所 示 。 


PCIe d -RIRA , 


M2, U2, WRO 





图 7-13 LeCroy PCIe 47 lr [X Interposer cards 


抓 到 的 Trace 是 这 个 样子 的 (这 是 一 个 NVMe 读 写 的 命令 ，LeCroy 可 
以 帮 你 解码 NVMe、AHCI 这 种 常见 的 存储 协议 ) ， 图 7-14 中 ， 软 件 将 
PCIe Trace 中 的 NVMe 命 令 解 析 了 出 来 。 


使 用 PCIe Analyzer 可 以 测量 PCIe 的 物理 层 、 链 路 层 、 事 务 层 。 跟 示 
波 器 不 同 ，Analyzer 可 以 基于 PCIe 协 议 将 链 路 上 所 有 Lane 上 发 生 的 事务 
都 解析 出 来 ， 并 且 还 提供 Trigger《〈 触 发 ) 的 功能 。 


同步 解析 Pcle 与 Nvme 
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TFI FFYFTTTY FTFFFEFF ( 
FT FFEFTFET FFFYTFTF > 
«ERA 1 
FFFEFF FFEI FFFFÈFFF FFEFFFFF 与 命令 的 数据 
FPFFFF FTFFFFFY FPFFEFEY EFF 


图 7-14 PCIe 软件 解析 NVMe 指 令 
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对 于 Analyzer 的 一 大 挑战 束 是 在 链 路 电源 状态 切换 的 过 程 能 够 快速 


适应 ， 越 早 实现 正确 的 抓 包 并 解析 越 好 。 


这 点 在 调试 的 时 候 尤 其 重要 ， 看 一 个 实际 的 例子 :对 一 个 寄存 器 做 
CfgWr 操 作 ， 但 是 结果 发 现 写 进去 的 值 不 对 ， 而 且 这 个 问题 只 在 ASPM 
enable 的 时 候 才 会 发 生 。 


电源 状态 切换 对 于 PCIe 发 送 端 和 接收 端 来 说 是 属于 压力 比较 大 的 操 
作 ， 因 此 有 时 会 导致 链 路 不 稳定 从 而 发 送 错误 的 包 。 这 种 问题 调试 需要 
抓 trace， 而 analyzer 必 须 把 在 链 路 从 L0s 退 出 进入 L0 时 所 发 送 的 全 部 TLP 
都 抓 到 ， 人 否则 融 无 法 得 看 错误 到 底 在 什么 地 方 。 且 L0s 退 出 的 时 间 非 常 
短 ， 所 以 Analyzer 需 要 在 链 路 从 electrical idle 〈 空 闲 状态 ) 退出 后 非常 短 
的 时 间 内 “《〈 几 十 个 FTS H ) 就 能 正确 抓 包 并 解析 。 

工具 是 死 的 ， 人 是 活 的 ， 什 么 时 候 抓 hace， 抓 哪个 阶段 ， 抓 的 时 候 
满 屏 的 红色 怎么 办 ， 怎 么 设 Trigger，trace 怎 么 分 析 ? 这 些 就 需要 工程 师 
们 自己 花 时 间 琢 磨 了 。 


[1] 全 称 为 Fast Training Sequence. 

















7.3.3 Jammer 


再 牛 的 肖邦 ， 也 弹 不 出 SSD 广 商 的 坦 伤 。 


一 块 SSD 到 不 同 客户 手 上 ， 不 知道 会 接 在 什么 机 器 ， 使 用 什么 样 的 
OS 和 主机 驱动 ， 在 什么 环境 下 使 用 。 结 合 巨 大 的 使 用 数量 ， 不 知道 哪 
天 某 块 SSD 就 会 从 主机 那 边 收 到 一 个 不 按 套路 出 牌 的 FIS 或 者 
Primitive (SATA SSD) 。 


举 个 例子 : 主机 发 了 一 个 读 命令 ，SSD 二 话 不 说 开始 干 活 ， 辛 辛苦 
苦 把 数据 从 闪存 里 读 出 来 ， 仔 仔细 细 地 进行 ECC 和 解码， 小心翼翼 传 到 
DDR， 进 行 MPECC 检 查 ， 再 全 神 贯 注 地 传 到 SATA 模 块 的 某 个 FIFO， 
这 时 候 SSD 抹 抹 头 上 的 诗 ， 把 手 擦 干净 ， 写 了 一 张 字条 ， 上 
书 "X RDY”， 蕉 恭敬 敬 地 递 给 主机 ， 然 后 把 数据 捧 在 怀 里 ， 细 心地 用 
SOF 包 装 好 ， 扎 切 地 期 盼 主机 也 回复 一 张 小 字 条 “R_RDY”。 主 机 十 分 感 
动 地 看 着 SSD， 然 后 回复 了 一 句 “R_ERR” 拒 绝 了 它 。 


客户 们 的 要 求 是 一 样 的 一 一 “主机 虞 你 千 百 过 ，SSD 你 要 待 他 如 初 
术语 叫 作 Robustness〈 健 壮 性 ) 。 

为 了 保证 健壮 性 ，ASIC 和 固件 工程 师 们 要 花 大 量 的 精力 ， 脑 补 各 
种 错误 可 能 性 ， 在 RTL 和 FW 中 加 入 相应 的 错误 处 理 (Error Handling) 
的 流程 。 


这 么 做 有 两 个 问题 : 这 些 错误 处 理 的 流程 ， 在 实验 室 里 面 跑 一 星 
期 ， 可 能 都 撞 不 到 一 个 ;再 牛 的 工程 师 也 没 法 提前 考虑 到 各 种 错误 。 


与 其 让 别人 找 麻 烦 ， 不 如 自己 给 自己 找 贱 烦 。 摘 测试 的 就 是 平时 给 
ASICA EFRR, LASATA SSD 为 例 ， 可 以 用 一 种 工具 一 一 Jammer。 


图 7-15 中 所 示 小 一 号 的 那个 就 是 SATA Jammer. 
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图 7-15 SATAWA Jammer 


如 果 说 Analyzer 是 一 个 “ 镭 听 器 *”， 让 你 知道 主机 和 设备 之 间 发 生 了 
什么 ， 那 么 Jammer 束 是 一 个 “邮递 员 ”， 主 机 和 设备 之 间 所 有 的 通信 都 必 
须 经 过 它 的 手 ， 然 后 Jammer 可 以 把 信 拆 开 ， 将 里 面 的 内 容 修 改 或 者 蔡 
换 ， 再 转发 出 去 。 


结合 之 前 的 例子 ， 我 们 可 以 把 正常 主机 回复 R_RDY 改 成 R_ERR， 
从 而 检查 SSD 遇 到 这 种 情况 时 处 理 的 是 否 正 确 。 


图 7-16 所 示 为 Jammer 管 理 软件 截图 向 一 个 Data FIS 中 故意 注入 
CRC Error. 
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图 7-16 SATA Jammer 管 理 软件 界面 


通过 在 SATA 链 路 上 创建 各 种 不 同 的 错误 ， 可 以 确认 各 种 错误 处 理 
的 流程 是 人 否 正 确 或 者 完善 ， 甚 全 增加 新 的 流程 。 


Jammer 还 有 别 的 用 处 ， 当 你 想 知 道 某 种 场景 (Scenario) 发 生 以 后 
主机 或 者 设备 的 反应 时 ， 可 以 通过 Jammer 来 知道 答案 。 比 如 当 设 备 回 复 
的 SDB 里 面 Error Bit 被 置 上 ， 或 者 设备 一 直 不 发 SDB 时 ， 主 机 是 不 是 会 
重 发 命令 ， 重 发 几 次 ， 重 发 多 次 设备 都 没 反 应 的 话 Driver 会 不 会 局 动 
OOB，Application 会 不 会 报错 ? 


你 值得 拥有 。 

















Jammer 


7.4 回归 测试 
SSD 这 行 ， 固 件 的 兄弟 姐妹 挺 不 容易 的 : 
.有 新 的 功能 要 加 代码 ; 
.有 bug 要 修 要 改 代码 ; 
.需求 变 了 要 改 代码 ; 
优化 性 能 更 要 改 代码 。 





这 样 改 来 改 去 ， 改 着 改 着 就 有 可 能 把 本 来 没 问 题 的 地 方 改 出 问题 。 
比如 ， 修 Bug B 的 时 候 ， 把 上 个 月 解决 的 Bug A 给 重新 放出 来 了 ， 或 者 
新 创建 了 一 个 Bug C。 





这 种 改 代码 出 现 副 作用 的 情况 ， 在 SSD 固 件 开发 过 程 中 几乎 不 可 避 





有 问题 就 要 解决 ， 站 在 测试 的 角度 ， 解 决 方法 束 是 回归 测试 
(Regression Test) . 
Regression Test 是 什么 : 


确保 新 的 代码 没有 影响 原 有 功能 ; 
-从 现 有 功能 的 测试 用 例 中 选取 部 分 或 者 全 部 出 来 进行 测试 。 





每 次 发 布 新 的 固件 ， 能 够 把 之 前 所 有 测试 全 部 跑 一 次 当然 最 好 ， 但 
凡是 干 过 测试 的 都 知道 这 是 不 可 能 的 ， 就 算 技术 上 可 行 ， 人 也 不 够 ， 就 
算 人 够 ， 盘 也 不 够 ， 就 算 这 些 都 够 ， 时 间 也 不 够 ， 如 图 7-17 所 示 。 


有 限 测 试 时 间 


海量 测试 项 目 


回归 测试 








图 7-17 平衡 海量 测试 项 目 与 有 限 测试 时 间 


选取 合适 的 测试 用 例 ， 放 在 回归 测试 里 ， 还 是 有 些 技巧 可 以 参考 
]: 


-那些 经 党 失败 的 项 目 ， 比 如 压力 测试 ; 
-用户 肉眼 可 见 的 功能 ， 比 如 跑 Benchmark; 
核心 功能 的 测试 ; 

那些 目前 正在 进行 或 者 刚 完成 的 功能 ; 
数据 完整 性 测试 
边界 值 测 试 。 





R/W/C; 
科学 研究 证 明 ， 有 效 的 回归 测试 可 以 市 省 60% 的 bug 修 复 时 间 和 40% 
的 成 本 。 


局 锡 见 蔡 框 公 的 故事 还 记得 吧 ， 有 病 早 治 ， 有 问题 早 解 决 ， 大 家 部 
好 。 


7.5 ”DevSlp 测 试 


增加 了 DevSlp 这 个 功能 以 后 ，SATA IO 也 在 原 有 的 Partial&Slumber 
测试 的 基础 上 特别 增加 了 对 DevSlp 的 测试 。 


新 的 测试 要 求 主要 是 关注 DevSlp 状 态 的 进出 是 否 正常 ， 要 实现 这 个 
必须 具备 两 点 : 能 让 设备 进入 DevSlp， 进 去 以 后 能 够 侦 测 到 DevSlp 的 状 
x 


4D o 








能 否 进 入 DevSlp 的 问题 不 用 讨论 ， 如 末 不 能 进 ， 也 不 用 测试 了 。 


侦 测 状态 ， 通 过 检查 SATA Status Register (SATA 状 态 寄存 器 ) 就 
能 够 实现 ， 这 个 Register 的 Bit[11: 8] 映 射 到 Interface Power 
Management (IPM) 设置 。 读 取 这 个 寄存 器 就 能 知道 AHCI 控 制 嚣 ( 主 
机 〉 要 求 设 备 进入 的 状态 。 具 体 定义 如 表 7-1 所 示 。 


表 7-1 SATA Status Register (SATA 状 态 寄存 器 ) 定义 


状态 寄存 器 
0h 设备 不 存在 或 连接 未 建立 
Ih 接口 处 于 工作 状态 


2h 接口 处 于 Partial 省 电 模式 
6h 接口 处 于 Slumber 省 电 模 式 
8h 接口 处 于 DevSlp 省 电 模式 





通过 读 写 这 个 寄存 器 可 以 知道 设备 能 否 成 功 地 进出 DevSlp。 但 是 具 
体 物 理 层 上 状态 切换 的 各 种 时 间 参 数 〈 例 如 MDAT、DMDT、DETO 
等 ) 就 没 办 法 测量 了 。 


专业 的 测试 需要 专业 的 仪器 ， 有 第 三 方 的 仪器 可 以 做 这 种 测试 ， 如 
图 7-18 所 示 。 
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图 7-18 LeCroy SATA 分 析 仪 支持 DevSlp 


从 图 中 可 以 看 到 使 用 了 专门 支持 DevSlp 的 线 统 。 
有 两 个 针对 DevSlp 的 case: 


SATA 数据 线 


PM-12: Entering DevSlp Interface power state (进入 DevSlp 模 
Ju à 


[PM-13: DevSlp interface power state exit latency (DevSlp 模 式 退 出 
时 延 ) 。 


IPM-12 重 点 是 测试 DevSlp 进 入 : 
1) 先 让 SSD 进 入 DevSlp 状 态 ; 


2) 保持 DevSlp 信 号 有 效 的 情况 下 ， 持 续 向 SSD 发 包 ， 确 保 SSD 不 会 
回应 发 过 去 的 包 ; 


3) 检查 各 种 时 间 参 数 是 否 在 规定 范围 内 “SATA 3.2 里 面 没有 包括 


DXET， 但 是 测 一 下 还 是 很 有 道理 的 ) 。 
表 7-2 ”DevSlp 时 序 参数 检查 


Symbol 参数 Value (时 间 要 求 ) 


DETO 设备 DEVSLP 退出 超时 时 间 20us (除非 在 标识 数据 日 志 中 另 有 规定 ) 


NS 


图 7-19 是 SATA Analyzer 记 录 的 测试 结 
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图 7-19 IPM-12DevSlp 测 试 结 


X to Y : 101.042.026 (ms) 


MDAT: 协议 规定 主机 唱 摇 篮 曲 给 设备 听 ， 至 少 要 唱 10ms， 主 机 说 
到 做 到 ， 唱 了 10ms 又 10ms， 唱 了 10ms 又 10ms。 


DXET: 协议 规定 从 主机 唱 摇 篮 曲 100ms 以 后 ， 设 备 必 须 睡 着 ， 设 
备 也 说 到 做 到 ，60ms 的 时 候 睡 着 了 。 


协议 规定 ， 设 备 进 入 DevSlp 后 ， 只 要 DevSlp 还 是 置 位 状态 ， 主 机 随 
便 怎 么 弄 ， 设 备 都 不 能 醒 ， 于 是 主机 为 了 考验 设备 ，100ms 后 开始 不 停 
地 发 COMRESET 要 想 唤 醒 设 备 。 


若 设备 能 够 在 DevSljp 的 状态 下 能 够 Detect 到 COMRESET， 说 明 测 试 
失败 ， 该 功能 没有 做 对 。 


IPM13 的 重点 是 测试 DevSlp 退 出 : 


.退出 DevSlp 并 不 需要 完整 的 上 电流 程 ， 而 是 使 用 COMWAKE 信 和 号 
让 SATA 链 路 快速 进入 PHY Ready 状 态 ; 


DETO: 协议 规定 设备 从 DevSlp 状 态 下 退出 需要 在 20ms 内 完成 。 先 
Assert DevSlp 信 号 让 设备 进入 DevSlp 状 态 ， 然 后 De-Assert DevSlp 信 号 开 
始 发 送 OOB 信 号 (同时 启动 一 个 Timer) ， 设 备 必须 在 20ms 内 响应 OOB 
信和 号。 只 要 啊 应 了 了 吏 算 测试 通过 ， 能 不 能 完成 OOB，IPM13 不 管 ， 
那 是 OOB 测 试 的 事情 。 


图 7-20 是 最 终 测 试 结 果 的 截图 。 
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The device shall be ready to detect DOB signals inlesshanorequallO — 7 
20ms/DETO field (defined in Identify Device Data Log) after Negating DEVSLP. 






É7-20 DevSlp 最 终 测试 结果 


7.6 PCle InterOp 


PCISIG 是 个 大 家 庭 ， 没 事 会 弄 个 Compliance Workshop， 各 公司 可 
以 把 自己 的 产品 拿 去 测试 ， 包 括 : 





:Electrical Testing: 电气 化 测试 ， 重 点 测试 物理 层 的 发 送 端 和 接收 
Hm. 


Configuration Testing: PCIe 设 备 配置 空间 测试 。 
-Link Protocol Testing: 设备 链 路 层 协议 相关 测试 。 
"Transaction Protocol Testing: 事务 层 协议 测试 。 
.Platform BIOS Testing: 平台 BIOS 测 试 。 


贵 司 弄 出 一 块 PCIe SSD, 如 条 能 走 完 这 一 套 流程 ， 说 明 PCIe 接 口 这 
块 没 啥 问 题 了 ， 毕 竟 这 些 测试 项 目 是 由 制定 PCIe 协 议 的 组 织 出 品 的 。 


然后 PCISIG 会 给 贵 司 一 个 小 红 花 ， 将 这 块 PCIe SSD 放 到 光荣 榜 上 
(Integrators List) ， 如 表 7-3 所 示 。 


PCISIG 光 荣 榜 即 Integrators List, P 
址 : https://pcisig.com/developers/integrators-list 。 


表 7-3 PCIe Integrators 列 表示 例 
发 布 日 其 


, PCIe 3.0 . 

AMD Device 2 ; x8 Graphics 21-Jun-17 

at 8GT/s 
l PCIe 3.0 i 

SAMSUNG Electronics 983 M.2 PCIe SSD x4 SSD Endpoint Card | 10-Aug-17 

at 8GT/s 
i : PCIe 3.0 

SK hynix PE4011 SSD Endpoint (Scop x4 PCIe NVMe 23-Aug-17 

a /s 






(E) 


发 布 日 期 


PCIe 3.0 . 
Device 1 x8 Graphics 21-Jun-17 
at 8GT/s 
Beijing Starblaze PCIe 3.0 
STAR1000 x4 19-Oct-17 
Technology Co., LTD. at 8GT/s 
Beijing Memblaze Memblaze NVMe | PCIe 3.0 
PBlaze5 x8 NVMe SSD 23-Aug-17 
Technology Co., Ltd. SSD at 8GT/s 
Huawei Technologies SmartIO- PCIe Ethernet| PCIe 3.0 Smart Ethernet 
x16 18-Oct-17 
Co., Ltd NIC-2 Adapter at 8GT/s Adapter 
Realtek Semiconductor RTS5762- PCIe NVMe SSD | PCIe 3.0 F PCIe NVMe SSD — 
X -Aug- 
Corp. CG Controller at 8GT/s ontroller i 


AESI, aaie NAER WAER. K RERMRARX 
老婆 打 ， 不 能 跟 别 的 选手 接触 (这 个 比武 招亲 是 一 妻 多 夫 制 。 





AMD 


Workshop 里 还 有 一 个 华山 论 剑 的 环节 ， 各 家 公司 可 以 把 自家 产品 拿 
出 来 跟 其 他 公司 的 产品 放 到 一 起 切磋 一 下 ， 看 看 互相 之 间 组 队 有 没有 问 


H 


题 ， 这 个 环节 就 是 Interoperability Test. 





贵 司 拿 着 刚 出 炉 的 PCIe SSD， 走 到 牙膏 三 公司 的 展位 :“ 兄 台 ， 
小 弟 这 有 一 块 PCIe Gen3x4 的 NVMe SSD， 想 跟 您 的 S 主 芯片 切磋 一 下 ， 
请 赐教 ! ”牙膏 厂 的 兄弟 盯 了 一 眼 你 的 Badge， 亲 切 地 拒绝 了 。 (在 这 个 
环节 ， 确 实 可 以 礼貌 地 拒绝 。) 


按摩 店 A 公 司 在 忙 着 跟 $ 公 司 、M 公 司 玩 ， 也 暂时 没 空 搭理 贵 司 。 
这 时 ， 和 调 可 杀 的 Synopsys 凑 了 上 来 :“ 这 位 小 兄弟 ， 我 看 你 骨骼 


清 奇 ， 未 来 必 成 大 器 .…...” 于 是 你 们 两 家 摆 开 阵势 ， 按 照 下 面 流 程 开始 
切磋 : 








10 了 解 对 方 的 实力 (就 像 相亲 时 间 对 方 : 你 们 小 区 停车 费 多 少 钱 
一 个 月 ? , ， 通 过 Link Capability Register 〈 链 路 能 力 寄存 器 ) 了 解 双方 
各 目的 链 路 速度 [3: OMi w: 4]， 如 图 7-21 所 示 。 


PCIe 链 路 能 力 寄存 器 
31 24 23 222120 19 18 17 15 14 12 11 109 43 0 


图 7-21 PCIe 链 路 能 力 寄 存 器 


2) 假设 贵 司 PCIe SSD 最 高 到 Gen3x4 〈 链 路 速度 Gen3， 带 宽 为 
x4) , Synopsys RC 最 高 到 Gen3x16。 


3) 把 你 的 PCIe SSD 插 到 Synopsys 带 来 的 开发 板 上 (Synopsys 卖 IP， 
不 卖 产 品 ) 。 


4) 开机 ， 检 查 你 的 PCIe SSD 被 0S 识 别 到 (过 程 中 可 能 会 提示 安装 
驱动 )， 检 查 Link Status Register 确 定 link 状 态 是 Gen3x4， 如 图 7-22 所 
Ze 


PCIe 链 路 状态 寄存 器 
15 14 13 12 11 109 4 
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当前 工作 市 宽 
当前 链 路 速度 
图 7-22 PCIe Link Status Register 


5) 如 果 你 的 PCIe SSD 还 支持 其 他 lane width ”比如 xl1， 用 胶布 或 
者 Reducer 把 lane width 降 到 xl1， 重 复 上 述 步 又， 确保 xl 也 能 正常 工作 。 


6) Speed 和 Width 正 确 还 不 够 ， 还 需要 做 一 下 简单 的 数据 传输 ， 确 
保 数据 能 顺利 通过 PCIe Bus。 


PCISIG 贴 心地 为 初 入 江湖 的 你 提供 了 方便 查看 PCIe Register 的 工具 
— —PCITree: http://www.pcitree.de/ 。 


以 上 都 顺利 通过 ， 把 你 们 俩 的 交手 记录 上 传 到 PCISIG 的 服务 器 上 ， 
继续 去 找 其 他 RC 或 者 Switch 供应 商 。 


写 在 最 后 ， 台 上 一 分 钟 ， 台 下 十 年 功 ， 为 了 在 Workshop 的 
Interoperability 环 节 有 好 的 表现 ， 在 下 山 前 束 应 该 找 来 各 家 的 RC 做 相关 
的 测试 。 











比如 先 定 一 个 能 达到 的 小 目标 ，Intel、ASUS、Gigabyte 最 新 、 次 新 
的 主板 来 个 10 块 ， 开 机 上 电 检 查 Link Speed/width， 每 台 机 器 先 过 个 200 
w kih A Automation) 。 


7.7 WA 测试 
WA 的 计算 公式 : WA= 闪 存 写 入 的 数据 量 /主机 写 入 的 数据 量 。 


只 要 知道 了 A《〈 内 存 写 入 的 数据 量 ) 和 B〈 主 机 写 入 的 数据 量 ) aul 
可 以 知道 WA 了 。 


这 两 个 数据 ， 从 哪里 拿 ” 从 SMART 信息 里 。 
《【 原创 】 浴 室 谈 SSD 的 SMART 信息 》 里 面 列 举 了 几 亚 SSD 产 品 的 


SMART 信息 ， 如 表 7-4 所 示 是 SandForce 12xx/15xx 主 控 的 信息 。 
原文 链接 : http://bbs.pceva.com.cn/thread-10212-1-1.html 。 


表 7-4  SandForce 12xx/15xx 主 控 SMART 信 息 


Raw Read Error Rate 底层 数据 读 取出 错 率 
E Retired Block Count 不 可 使 用 的 坏 块 计数 





171 Program Fail Count 编程 错误 计数 
172 Erase Fail Count 控 除 错误 计数 
174 Unexpected Power Loss Count 不 正常 挥 电 次 数 


177 Wear-Range Data 显示 最 大 磨损 块 和 最 小 磨损 块 相差 的 百分比 


181 同 171 定义 相同 


( 续 ) 
WS[ 8X — Wu 
9 | Poweron kous Com — | ifii 


含义 





同 172 定义 相同 


187 Reported Uncorrectable Errors 不 可 修复 错误 计数 





显示 温度 的 ， 基 本 可 以 忽略 
On the Fly Reported Uncorrectable 


Error Count 实时 不 可 修 复 错误 i P 
196 Reallocated Event Count 重 映 射 坏 块 计数 
231 | SSD Life left SSD 剩余 寿命 OAH 100, RH 10, REPET, EZA 
i 备用 空间 可 以 替换 ， 显 示 0 则 代表 盘 上 数据 为 只 读 ) 


241 来 自主 机 的 写 人 数据 量 总 数 
242 lifetime read from host 来 自主 机 的 读 取 数据 量 总 数 


可 以 看 到 241: Lifetime write from host 就 是 “主机 写 入 的 数据 量 ”。 


这 张 表 里 没有 “闪存 写 入 的 数据 量 ”， 引 入 第 二 个 公式 : 闪存 写 入 数 
据 量 = 平均 Wear Leveling countxSSD 容 量 〈 这 个 好 理解 吧 ) 。 


SSD 容 量 大 家 都 知道 。Wear Leveling count， 在 上 面 这 张 表 里 没 
有 ， 但 是 有 “172Erase Fail Count( 擦 除 错误 计数 ) ”和 “177Wear-Range 
Data〈 显 示 最 大 磨损 块 和 最 小 磨损 块 相差 的 百分比 ) ”说 明 FW 其 实 统 
计 了 Wear Leveling count， 只 是 没有 显示 出 来 。 


这 篇 文章 里 提 到 了 另外 一 款 SSD 一 一 美光 C300， 其 包括 Marvell 
88SS9174 主 控 和 美光 自己 的 固件 ， 就 直接 公布 了 参数 : “173Wear 
Leveling Count (平均 擦 写 次 数 ) ”， 但 没有 公布 “241Lifetime write from 
host”。 


上 述 这 些 在 内 部 训 试 的 时 候 都 不 是 问题 ， 请 FW 的 兄弟 们 把 这 两 项 
都 显示 出 来 ， 训 试 工程 师 可 以 计算 自家 SSD 的 WA 了 。 


7.8 AEM 


一 款 SSD 出 货 前 必须 要 经 过 严格 的 耐久 度 (Endurance) 测试 ， 简 单 
说 来 就 是 SSD 有 多 经 用 。JEDEC 有 两 份 SSD Endurance 测 试 的 协议 ， 分 别 
是 : 





JESD 218A: 测试 方法 。 
JESD 219: workload, 

首先 需要 了 解 如 下 概念 : 
TBW: 总 写 入 数据 量 。 


:FFR (Function Failure Requirement) : 整个 写 入 过 程 中 产生 的 累计 
功能 性 错误 。 


-Data Retention: 长 时 间 不 使 用 〈 上 电 ) 情况 下 保持 数据 的 能 


UBER (Uncorrectable Bit Error Rate) : UBER=number of data 
errors/number of bits read. 


企业 级 和 消费 级 SSD 在 耐久 度 的 要 求 上 有 是 不 同 的 ， 体 现在 : 
:工作 时 间 ; 
:工作 温度 ; 
"UBER; 
Retention 温 度 以 及 时 间 。 
具体 数据 如 表 7-5 所 示 。 
表 7-5 ”消费 级 与 企业 级 SSD 可 靠 性 测试 要 求 


数据 保存 FFR (Functional Failure UBER Requirement 
EH mee 


虽然 叫 耐 久 度 测 试 ， 但 是 218 其 实 是 包括 了 耐久 度 和 数据 保持 
(Data Retention) 两 部 分 测试 的 ， 官 方 给 的 方法 有 两 种 : 


直 来 直 去 法 。 
-Extrapolation method —— —437 5 T £8 12; . 


本 书 着 重 解释 Direct method， 理 解 了 它 以 后 ， 另 一 个 方法 就 很 容易 
理解 了 。 


Direct method， 简 单 来 说 ， 就 是 使 劲 写 ， 可 劲 读 ， 套 用 贝 爷 的 口头 
禅 : “Push the SSD to limit”， 在 这 个 过 程 中 ， 要 注意 : 


.要 求 有 高 低温 ; 
:必须 用 指定 的 workload; 
:耐久 度 测 试 以 后 马上 进行 数据 保持 测试 。 


在 详细 介绍 这 些 之 前 ， 首 先 要 搞 明 日 一 个 问题 ， 应 该 拿 多 少 块 SSD 
跑 耐 久 度 测 试 ? 


要 求 一 : 如 果 该 系列 SSD 首 次 进行 测试 ， 选 取 的 SSD 要 来 目 至 少 三 
个 不 连续 的 生产 批 次 ， 如 末 不 是 首次 ， 选 一 个 批 次 的 就 行 。 


有 要求 二 : 制定 标准 时 直接 给 了 两 个 公式 。 


:UCL Cfunctional failures?) <FFRxSS (for Functional Failure) 








-Direct method 




















-UCL (data errors?) min (TBW, TBR) x8x10!? xUBERxSS (for 
Data Failure) 


如 果 只 看 公式 ， 你 可 能 会 跟 我 一 样 ， 一 脸 懂 。 其 中 : 


-Functional failure: 可 以 接受 的 出 现 功能 故障 的 SSD 的 数量 ; 
Data eror: 可 以 接受 的 数据 出 错 的 数量 ; 

TBW, TBR: 总 写 入 / 读 取 量 ; 

.SS: Sample Size， 就 是 我 们 要 求 的 X〈 用 多 少 块 盘 测 试 ) ; 


"UCL: Upper confidence Limit 函 数 ， 看 不 懂 是 不 是 ， 不 用 你 看 懂 ， 








直接 查 表 就 行 〈 见 表 7-6) 。 
表 7-6 UCL 函数 查 值 表 












































AL n 

0 0.92 
1 2.03 

2 3.11 2 
3 4.18 23 
4 5.24 2 
5 6.29 25 
6 7.34 2 
7 8.39 27 
8 9.43 2 
9 10.48 29 
10 11.52 

11 12.55 

12 13.59 

13 14.62 

14 15.66 

15 16.69 

16 17.72 

17 | 18.75 

18 19.78 

19 20.81 





























通常 我 们 直接 用 AL=0 (AL=0 代 表 没 有 functional failure) ， 这 样 对 
应 的 UCL 就 是 0.92。 


这 里 结合 一 个 实际 的 例子 说 明 ， 假 设 FFR=3%，UBER=10-16 ， 


TBW=100， 代 入 公式 得 到 : 
:SS>0.92/ (0.03) =30.1 
.SS>0.92/ (100x1x8x101? x10-16 ) =11.5 


两 个 SS 分 别 能 够 满足 Functional Failure 和 Data Failure 的 要 求 ， 取 两 
者 之 间 的 较 大 值 30.1， 所 以 需要 的 跑 测 试 的 SSD 数 量 是 31 块 。 


再 把 SS=31 代 入 公式 : UCL (data errors) <100x1x8x1012 x10-16 
x31=2.48 


用 2.48 这 个 值 去 表 〈( 见 表 7-7) 里 反 查 ， 得 到 允许 的 最 大 data errors 
数量 为 1。 


表 7-7 表格 反 查 获得 最 大 Data Error 值 












































AL n AL n AL AL n 
0 0.92 20 21.84 40 80 82.97 
24m 21 22.87 41 81 83.98 
22 23.89 42 82 84.99 
3 4.18 23 24.92 43 83 86.00 
4 5.24 24 25.94 44 84 87.02 
5 6.29 25 26.97 45 85 88.03 
6 7.34 26 28.00 46 86 89.05 
| sa | 27 29.02 47 87 90.06 
8 9.43 28 30.04 48 88 91.08 
9 10.48 29 31.07 49 89 92.08 
10 11.52 30 32.09 50 90 93.10 
1 12.55 31 33.12 51 91 94.11 
12 13.59 32 34.14 52 92 95.13 
13 14.62 33 35.16 53 93 96.14 
14 15.66 34 36.18 54 94 97.15 
15 16.69 35 37.20 55 95 98.16 
16 17.72 36 38.22 56 96 99.18 
17 18.75 37 39.24 57 97 100.19 
18 19.78 38 40.26 58 98 101.21 
19 20.81 39 41.29 59 99 | 102.22 



































总 结 : 选 31 块 盘 ， 跑 完 耐 久 度 测试 ， 不 能 有 Functional failure， 最 多 


可 以 有 1 个 Data-error， 测 试 才 会 通过 。 


耐久 度 测 试 使 用 的 workload 可 以 从 网 上 下 载 ， 整 个 workload 大 概 有 4 
亿 条 Write、trim、flush 命 令 〈 消 费 级 SSD) ， 每 次 写 完 之 后 需要 read 回 
来 确保 数据 是 正确 的 ， 有 具体 实现 的 工具 没有 要 求 。 


耐久 度 和 数据 保持 过 程 中 为 一 个 重要 的 因素 就 是 高 低温 。 


具体 的 温度 要 求 如 表 7-8 所 示 ， 可 以 看 到 企业 级 SSD 要 求 比 消费 级 
SSD 高 出 不 少 。 


表 7-8 ”消费 级 与 企业 级 SSD 可 靠 性 测试 温度 要 求 


m 数据 保持 测试 温度 要 求 (High Temper- 
(上 电 状 态 ) |( 断 电 状 态 )| rance Stress Temperature) | ature Retention Stress Temperature ) 
Ramped Approach : 
低温 : T «25€ 
消费 级 高 温 : 4000€ T X Tas 
( Client) 8 ` Split-flow Approach: 
低温 = Tx 25€ 
mui: 40€ TX Tu 











96 小 时 /7 三 66% 
或 者 


500 小 时 /7 三 52% 


( 续 ) 
数据 保持 测试 温度 要 求 (High Temper- 
ature Retention Stress Temperature) 


Ramped Approach: 
低温 : T 25'C 
企业 级 55*G iG 高 温 : 6000 T X Tua. 
( Enterprise) | 24 小 时 /天 |3 Split-flow Approach: 
低温 : T «25'C 
Fuld: 6070 T X Tas. 


96 小 时 /7 三 66% 
或 者 


500 小 时 /7 过 52% 





控制 温度 变化 有 两 种 策略 : 


.Ramped-Temperature approach: 所 有 SSD 放 在 一 起 ， 在 高 低温 间 来 
回 切换 。 


‘Split Flow approach: 所 有 SSD 分 两 半 ， 一 半 进 行 低温 测试 ， 一 半 
进行 高 温 测 试 。 


低温 没有 问题 ， 要 求 <25'%C。 





高 温 的 要 求 是 一 个 区 间 ， 比 如 Client SSD 的 高 温 温度 区 间 是 
40C<T<T yy ， 高 温 下 限 是 40C， 上 限 没有 给 出 具体 数值 。 


TEJESD-218A B5 MRENA f O8 Eds EX Endurance Retention i 
的 时 间 加 速 作用 ， 有 兴趣 的 读者 可 以 自行 参阅 。 其 论证 的 结论 束 是 温度 
越 高 ， 就 能 用 越 短 的 时 间 模 拟 出 对 SSD 进 行 1 年 读 写 的 效果 ， 对 应 关系 
如 表 7-9 所 示 。 








表 7-9 温度 加 速 时 间 对 照 表 


实际 压力 测试 时 间 (小 时 ) 消 gm T 
so Hr 
300 9 
350 92 
400 in 
son ni 
3000 E NENNEEE GENE 


以 第 一 行为 例 ， 采 用 Ramped temperature 方 式 ， 当 高 温 达 到 86'C 
时 ， 对 一 块 盘 进行 50 小 时 的 读 写 〈 必 须 用 官方 的 workload) 能 够 达到 常 
温 下 一 年 的 效果 。 


而 同样 的 SSD， 如 果 高 温 只 有 48'C 〈 最 后 一 行 ) ， 必 须 跑 3000 小 时 
的 读 写 才能 达到 一 样 的 效果 。 


那 怎样 确定 这 个 Tnax 呢 ? 我 理解 的 步骤 是 这 个 样子 : 


-根据 SSD 容 量 计算 器 TBW， 比 如 160GB 的 TLC SSD， 按 PE cycle 
500 计 算 其 TBW 应 该 是 80TB。 


.Workload 来 一 遍 为 1TBW。 


.那么 总 共 需 要 把 workload 跑 上 80 遍 
.假设 跑 一 遍 workload 需 要 5 个 小 时 。 
:那么 总 时 间 就 是 400 小 时 。 


:在 表 7-9 中 找到 与 400 小 时 对 应 的 温度 为 66'C (Client SSD, 
Ramped) , XAET nax B o 


^4 J workload, A BJE yE, xn] AIER Endurance T , 
图 7-23 是 Direct Methodi Hj Ramped approcah 的 流程 图 。 


取样 (章节 7.1 ) 


耐久 度 测试 (章节 7.1.3 ) 
温度 控制 (章节 7.1.3 ) 


(可 选 ) 器 件 级 室温 数据 
保持 测试 (章节 7.1.52) 


数据 写 人 (章节 7.14) 


(可 选 ) 设备 级 室温 数据 
保持 测试 (章节 7.1.5.1) 


高 温 数 据 保 持 测试 
(章节 7.1.4) 


数据 比较 (章节 7.14) 


标准 判定 (章节 7.1.1 ) 





图 7-23 ”SSD 耐久 度 测试 Direct Method Ramped Approach?fi. £z K] l! 
从 上 到 下 整个 过 程 分 别 是 : 


NM 


1) Sample 取 样 ， 确 定 用 多 少 块 SSD 测 试 ; 
耐久 度 测试 ; 

部 件 级 常温 数据 保持 测试 (可 选 〉; 
写 入 数据 ， 为 了 后 面 的 数据 保持 测试 ; 
产品 级 常温 数据 保持 测试 (可 选 〉; 
高 温 数 据 保持 ; 

7) 数据 比较 


8) 判断 是 否 通过 (检查 FFR 和 Data_error 是 否 满足 前 面 那 两 个 公 


NM 


2 


NA 


3 


NM 


4 


NM 


5 


NA 


6 





A) 


步骤 1、2 已 经 介绍 过 ， 步 骤 3 一 7 都 是 关于 Data retention 的 ， 这 个 测 
试 要 求 在 耐久 度 测试 结束 以 后 马上 进行 : 5AE E > ma o EE 
”数据 比较 。 


而 对 于 某 个 系列 的 首次 耐久 度 测 试 ， 还 要 求 进行 常温 数据 保持 测 
试 ， 详 细 情 况 可 以 参考 正 SD218A 7.1.5 测 试 标准 。 


最 后 简单 提 几 人 句 Extrapolation method， 说 白 了 束 是 用 各 种 方法 在 最 
短 的 时 间 完 成 Endurance 测 试 ， 比 如 : 


修改 workload， 在 更 短 的 时 间 内 造成 更 多 的 PE cycle UAA BG UN 
序 访问 占 比 ， 传 输 数 据 大 小 ， 引 发 更 多 background activity) 。 


限制 SSD 的 大 小 ， 比 如 把 前 面 的 160G SSD 通 过 固件 限制 为 40G 可 
用 ， 那 么 所 需要 的 Endurance 时 间 就 直接 从 400 小 时 降低 到 100 小 时 《〈 相 
应 高 温 需 要 从 66'C 调 整 为 79'C) ， 如 图 7-24 所 示 。 





实际 压力 测试 Split 策略 Ramped 策略 


时 间 (小 时 ) 








图 7-24 通过 提高 温度 减少 可 靠 性 测试 的 时 间 


特别 要 注意 的 是 ， 固 件 在 限制 大 小 的 时 候 ， 不 仅 要 限制 开放 给 主机 
的 读 写 区 域 ， 同 时 内 部 的 OP 空间 也 必须 同样 等 比例 缩小 。 


[1] 图 中 的 章节 为 该 测试 规范 中 的 章节 。 





7.9 认证 Certification 


一 球 SSD 研 发 出 来 ， 除 了 内 部 的 层 层 测试 ， 也 少不了 送出 去 进行 各 
种 认证 测试 。 


1.SATA-IO Plugfest 和 IW (Interoperability Workshop) 





作为 SATA 协 议 的 官方 组 织 ，SATA-IO 每 年 都 会 组 织 厂商 一 起 坐 
坐 ， 给 大 家 一 个 互相 切磋 的 机 会 进行 兼容 性 、 交 互 性 以 及 新 功能 的 测 
i. 

图 7-25 所 示 是 2008 年 的 活动 日 程 表 ，Plugfest 三 天 ，IW 五 天 。 


Monday, September29", 2008 
8:00 a.m.—9.00 a.m.--Name badges and schedules available at the Grand Ballroom 
9.00 a.m.—10:00 a.m.-Kickoff Meeting, Q&A 
10.00 a.m.—12:00 p.m.- Test Sessions 


12.00 p.m.- 1:00 p.m.-Hosted Lunch 
1.00 p.m.—5:00 p.m.- Test Sessions 


Tuesday, September30 











Plugfest: 8.00 a.m.—12:00 p.m.- Test Sessions 

e Testing Mon-Wed 12.00 p.m.—1:00 p.m.—Hosted Lunch 

e 60—min timeslots 1.00 p.m.—5:00 p.m.—Test Sessions 
Wednesday, October 1 Interop Workshop: 
8.00 a.m.—12:00 p.m.—Test Sessions Testine MF 


12.00 p.m.—1:00 p.m.-Lunch (not hosted) 
1.00 p.m.—5:00 p.m.- Test Sessions 
5.00 p.m.-Pack-up & shipping ( Plugfest only ) 


è 2 hr timeslots 


Thursday, October 2 


8.00 a.m.—12:00 p.m.- Test Sessions (IW only) 
12.00 p.m.—1:00 p.m.-Lunch (not hosted) 
1.00 p.m.—5:00 p.m.- Test Sessions (IW only) 
5.00 p.m.—-Pack-up & shipping (IW only) 


Friday, October 3 
8.00 a.m.—12:00 p.m.- Test Sessions (IW only) 


图 7-25 | SATA-IO Event 日 程 示例 





2.IW 和 Plugfest 有 上 所 不 同 





IW 的 对 象 是 量 产 产 品 ， 由 SATA-IO 主 导 ， 有 固定 的 测试 流程 和 项 
目 ， 并 且 测 试 结 果 需 要 提交 SATA-IO， 通 过 测试 的 设备 可 以 加 入 
Integrators List. 


Plugfest 的 对 象 是 开发 阶段 的 产品 ， 厂 商 之 间 互 相 玩 枣 ， 测 什么 ， 
怎么 测 ， 大 家 自己 说 了 算 ， 测 试 结果 不 用 提交 给 SATA-IO。 


官方 网 站 上 有 具体 介绍 以 及 报名 方式 : 





https://www.sata-io.org/plugfests 
https://www.sata-io.org/interoperability-workshops 

3.PCIe SIG Compliance Program 

" 作为 PCIe 协 议 的 官方 组 织 ，PCIe SIG 的 一 致 性 测试 项 目 包 括 以 下 方 


-Electrical Testing: 针对 平台 和 卡 的 Tx 和 Rx 电器 性 能 进行 测试 。 


Configuration Testing: PCIe configuration spaceJl|iX (Tool: PCIE 
CV) 。 


-Link Protocol Testing: 针对 设备 进行 链 路 层 协 议 测 试 。 
‘Transaction Protocol Testing: 针对 设备 进行 传输 层 协议 测试 。 


-Platform BIOS Testing: 针对 平台 BIOS 进 行 测试 ， 判 断 其 能 否 识别 
并 正确 配置 设备 。 


通过 PCIe SIG 的 测试 同样 可 以 加 入 Integrators List。 


官方 网 站 上 提供 Test Guide 下 载 ， 包 括 测 斌 描述、 规格、 流程 以 及 
相关 的 工具 : 


https://pcisig.com/developers/compliance-program 


4.UNH IOL NVMe Test 


UNH-IOL 全 称 是 University of New Hampshire InterOperability 
Laboratory， 古 业界 车 名 的 公开 实验 室 ， 提 供 多 个 领域 的 测试 服务 。 图 
7-26 所 示 为 这 个 实验 室 涉 及 的 领域 。 


€ 5 [w] https://www.iol.unh.edu/solutions/test-tools/interact 
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图 7-26 IOL 交 互 性 测试 实验 室 涉及 领域 


UNH-IOL 定 义 了 NVMe Test Suites, £5: 


:NVMe Conformance Test Suite 
:NVMe Interoperability Test Suite 


" Test Suite 会 跟着 NVMe Spec 更 新 持续 更 新 ， 广 商 可 以 自行 下 载 使 


链接 : https://www.iol.unh.edu/testing/storage/nvme/test-suites 


UNH-IOL 贴 心地 提供 了 NVMe 的 测试 工具 : 


-IOL INTREACT PC EDITION Software: 基于 UNH-IOL 自 己 的 
NVMe Conformance Test Suite 开 源 项 目的 工具 ， 图 形 界面 上 手 容 易 。 





-IOL INTERACT Teledyne-LeCroy EDITION Software: 高 级 版 本 ， 
必须 配合 LeCroy 的 PCIe Exerciser 和 Analyzer 使 用 ， 能 够 自动 跑 完 NVMe 
Conformance Test Suite 里 面 要 求 的 测试 ， 而 且 能 够 自动 抓 取 trace 以 供 分 
析 。 


链接 : https://www.iol.unh.edu/solutions/test-tools/interact 


免费 是 为 了 更 好 地 收费 ， 如 果 使 用 UNH-IOL 的 测试 服务 并 完成 下 列 
指定 项 目 ， 就 可 以 加 入 NVMe Integrators List: 


‘Conformance testing using IOL INTREACT PC EDITION Software; 


‘Conformance testing using IOL INTERACT Teledyne-LeCroy 
EDITION Software; 


Interoperability testing using VDbench software. 


链接 : https;//www.iol.unh.edu/testing/storage/nvme 。 


7.10 SSD Performance 测 试 
SNIA 给 Client SSD 与 Enterprise SSD 都 制定 了 Performance Test (HERE 
测试 ) 的 规范 ， 可 以 到 其 网 站 www.snia.org 下 载 。 


要 进行 SSD 的 Performance Test， 首 先 要 理解 几 个 关键 概念 。 


:FOB: Fresh Out of Box， 指 的 是 刚 开 封 、 全 新 的 盘 ， 此 时 SSD 的 性 
能 类 似 于 悟 饭 同学 的 愤怒 形态 ， 战 斗 力 爆 表 但 不 持久 ， 这 并 不 是 这 块 盘 
在 未 来 正常 使 用 过 程 中 的 真实 能 力 。 

‘Transition: 经 过 一 段 时 间 的 读 写 ， 战 斗 力 逐 步 降低 ， 趋 癌 于 稳定 
状态 ， 这 个 过 程 称 为 转换 状态 。 


-Steady State: 战斗 力 数值 稳定 在 一 个 区 间 ，Performance 相 关 的 数 
据 ， 例 如 Throughput CfrHbs&) ~ IOPS. Latency (延迟 ) 都 必须 在 
Steady State 下 获取 ， 据 此 判断 其 到 底 是 超级 赛 亚 人 ， 还 是 战 五 湘 。 


看 看 图 7-27， 不 同 的 盘 Performance 数 据 有 所 不 同 ， 但 趋势 一 样 ， 曝 
Ko 下降- 稳定 。 


SSD 性 能 曲线 变化 
—D1 MLC —D2 MLC —D3 MLC—D4 MLC —2D5 MLC —D6 MLC — DT SLC 一 D8SLC 


全 新 盘 


(理想 测试 区 间 ) 


ee eo RO DENN NNNM 
Pre ATT 





300 
时 间 (分 钟 ) 


图 7-27 SSD 性 能 变化 趋势 


Steady State (FRED) 的 判断 原则 是 : 这 上段 时 间 内 性 能 波动 不 超过 
+10%。 


接 下 来 ， 介 绍 另 外 几 个 概念 : 


1) Purge CERO : 每 次 进行 Performance 测 试 前 都 必须 进行 Purge 
动作 ， 目 的 是 消除 测试 前 的 其 他 操作 《〈 读 写 及 其 他 测试 ) 融 来 的 影 啊 
(比如 ,一段 小 BS 的 随机 读 写 之 后 立即 进行 大 BS 的 顺序 读 写 ， 这 时 候 
大 BS 的 数据 会 比较 差 ) ， 从 而 保证 每 次 测试 时 盘 都 是 从 一 个 已 知 的 、 
相同 的 状态 下 开始。 简单 来 说 ， 可 以 把 Purge 理 解 为 : 让 盘 回 到 FOB 状 











实现 的 Purge 方 法 可 以 是 : 
‘ATA: Security Erase, SANTIZIE Device (Block Erase Ext) 。 


"SCSI: FORMAT UNIT. 


Vendor specific method (厂商 的 工具 ) 。 


2) Precondition: 通过 对 盘 进 行 IO 使 其 逐步 进入 Steady State 的 过 
程 ， 分 两 步 进行 。 


-Workload Independent Preconditioning (WIPC) : 第 一 步 ， 读 写 时 
不 使 用 测试 的 Workload。 


-Workload Dependent Preconditioning (WDPC) : 第 二 步 ， 读 写 时 
使 用 测试 的 Workload。 


3) Active Range: 测试 过 程 中 对 盘 上 LBA 发 送 IO 命令 的 范围 ， 如 图 
7-28 所 示 o 


0% 











Active Range ( 0:100 ) Active Range ( 0:75 ) 
图 7-28 ”SSD 性 能 测试 有 效 测试 范围 


4) Data pattern: Performance 测 试 必 须 使 用 随机 数据 《 回 内 存 中 写 
入 的 数据 ) 。 


基本 测试 流程 : 





1) Purge the device: fEÉRSSD. 


2) Run Workload Independent Precondition: 比如 用 128K 的 BS 顺序 
把 盘 写 两 裔 。 


3) Run Test (包括 Workload Dependent Precondition) : 设置 好 相关 
参数 (OIO/Thread, Thread count, Data Pattern). 后 开始 进行 Workload 
Dependent Precondition， 最 多 跑 25 个 round。 


4) 假设 在 25 个 round 以 内 达到 了 Steady Status， 例 如 第 x 次 。 那 么 : 
.Round 1: x 称 为 Steady Status 收 敛 区 间 ; 

"Round (x-4) : 4 称 为 测量 区 间 (Measure Window) . 

5) 如 果 25 个 round 还 没有 达到 Steady Status， 可 以 选择 : 
.继续 步骤 3 直到 达到 Steady Status 并 记录 x; 

.直接 取 X=25。 

注意 : 步骤 2 到 步骤 3 之 间 不 可 以 中 断 、 停 顿 。 


Performance 测 试 项 目 包 括 IOPS 测 试 、Throughput 测 试 、Latency 测 
试 和 饱和 写 测 试 〈 可 选 ) 。 


以 IOPS 测 试 为 例 说 明 : 
1) Purge SSD. 
2) Workload Independent Preconditioning: 用 128K 的 BS 把 SSD 写 两 


GÍ 


3) Workload Dependent Preconditioning and Test. 


:用 RW Mix (100/0, 95/5. 65/35. 50/50. 35/65. 5/95. 0/100) 、 
BS (1024KB. 128KB, 64KB. 32KB. 16KB. 8KB. AKB. 512B) 组 


4r íT Random IO. 


-每 个 Round 包括 7x8=56 个 组 合 ， 每 个 组 合 跑 一 分 钟 并 记录 结果 。 


.以 RMW Mix=0/100，BS=4KB 这 个 组 合 的 IOPS 结 果 判 断 是 人 否 到 达 
Steady State 〈 参 考 前 文 Steady State 判 断 标 准 ) 。 


.在 测量 区 间 (Measure Window) 记录 相关 数据 。 





Throughput 测 试 和 Latency 测 试 的 步骤 大 致 相同 ， 需 要 注意 的 是 : 


Throughput 测 试 : 只 有 两 个 组 合 一 一 BS=1024K Sequential Write 和 
BS=1024K Sequential Read， 用 Sequential Write 的 值 来 判断 Steady 
Status。 


:Latency 测 试 : 只 使 用 3 种 RW Mix 组 合 (100/0、65/35、0/100〉 和 3 
种 BS (8K、4K、512B)〉， 男 外 需要 把 队列 数 和 线程 数 都 设 为 1。 


饱和 写 测试 (Write Saturation Test, WST) ， 对 SSD 进 行 长 时 间 的 
Random 4K 写 操作 ， 评 测 其 经 过 长 期 写 入 以 后 的 表现 。 


关于 饱和 写 测试 ， 国 外 知名 网 站 TechReport.com 的 弟兄 们 曾经 花 了 
18 个 月 "a 了 6 块 不 同 厂商 的 SSD 进 行 了 “ 惨 无 人 道 ”" 的 、 超 过 2PB 的 连续 
号 入 操作 。 


原文 链接 : http://techreport.com/review/24841/introducing-the-ssd- 
endurance-experiment 。 





中 文 链接 : http:/www.ssdfans.com/?p-672 。 
Performance 测 试 项 目 配 置 总 结 如 表 7-10 所 示 。 


表 7-10 ”SSD 性 能 测试 配置 


me | ooo. ess onoo | sizs. RB sm | | 
umm mo | | m | ET 





7582: SSD 电 源 管 理 


与 传统 硬 往 相 比 ，SSD 不 仅 有 具备 更 高 的 读 写 速度 ， 能 耗 上 也 有 非 稼 
大 的 优势 。 本 章 从 SATA 链 路 、PCIe 链 路 、NVMe 协 议 以 及 SSD 内 部 主 
控 管 理 等 方面 介绍 SSD 上 的 电源 管理 技术 。 


8.1 SATA 省 电 模 式 Partial 和 Slumber 


SATA 链 路 电源 管理 ， 可 以 让 SATA 链 路 的 PHY 进 入 低 功 耗 模 式 ， 
与 硬盘 或 者 SSD 其 他 部 分 (CPU、DDR、 后 端 ) 的 电源 管理 是 完全 独立 
dn 以 硬盘 为 例 ，SATA 链 路 的 电源 状态 与 盘 片 的 转 数 快慢 是 相互 独立 


SATA 提 供 了 两 种 低 功 耗 模式 : Partial 和 Slumber。 


:Partial 模 式 : PHY 处 于 低 功 耗 状态 ， 退 出 时 间 要 求 <10hs。Partial 
是 让 部 分 物理 层 CPHYO 电路 进入 休眠 模式 ， 能 够 在 10hs 内 被 唤醒 ， 让 
链 路 在 不 太 影响 传输 性 能 的 情况 下 忙 里 偷 内 ， 休 息 一 下 。 


:Slumber 模 式 : PHY 处 于 更 低 功 耗 状 态 ， 退 出 时 间 要 求 二 10ms。 与 
Partial 模 式 相 比 ，Slumber 关 闭 更 多 的 电路 ， 因 此 它 的 恢复 要 慢 一 些 ， 恢 
cac UE 当 预 测 有 一 段 相 对 长 的 Idle 时 间 时 ， 会 让 链 路 好 好 

已. 一 个 。 


在 图 8-1 中 可 以 看 到 Partial/Slumber 把 功 耗 从 Active State 的 1000mW 
降低 到 了 100mW 左 右 。 








功 耗 (mW) 
Active 
1000 
Ed 
us 
100 Slumber 
10 ms 


Off 





恢复 时 间 (ms) 
1 10 100 1000 10000 


图 8-1 Partial 和 Slumber 两 种 模式 的 功 耗 和 时 延 


在 链 路 电源 管理 方面 ，SATA 一 视 同仁 ， 主 机 和 设备 都 可 以 友 起 ， 
分 别称 为 : 


‘HIPM (Host Initiated Power Management) . 
:DIPM (Device Initiated Power Management) . 


发 起 归 发 起 ， 还 是 需要 对 方 配 合 ， 才 能 让 链 路 进入 Partial 或 者 
Slumber 模 式 。 具 体 做 法 是 这 样 的 ， 以 主机 发 起 为 例 : 


:主机 发 送 一 个 PMREQ_P (RIEA Partial) 给 设备 (如 果 发 
PMREQ_S 就 是 请 求 进 Slumber) ; 





设备 回复 PMACK (同意 ) 或 者 PMNAK (不 同音) ; 


:如 果 设 备 回复 同意 ， 两 边 一 起 进 Partial (一 般 接收 方 都 会 发 送 多 个 
PMACK 以 确保 发 起 方 收 到 ) ; 


-如 果 回 复 不 同意 ， 那 就 什么 都 不 发 生 ; 

.如 果 需 要 退出 Partial 或 者 SIumber， 需 要 通过 OOB 重 新 建立 连接 。 

其 他 知识 点 : 

:Listen Mode 〈 侦 听 模 式 ) : AHCI 支 持 让 没有 接盘 的 端口 进入 侦 听 
o 口 的 功 耗 水 平 相 当 于 Slumber， 但 是 该 端口 可 以 识别 新 


Auto Partial to Slumber: 可 以 让 链 路 不 需要 回 到 Active 状 态 ， 直 接 
从 Partial 进 入 Slumber 模 式 。 











8.0 SATA 超级 省 电 模式 DevSlp 


从 SATA 3.2 开 始 ，SATA 有 了 一 个 新 的 功能 DevSlp (Device Sleep, 
设备 睡眠 ) 。DevSlp 是 一 个 信号 ， 通 过 发 送 这 个 信号 让 盘 进 入 一 个 非常 
省 电 的 状态 。 


前 文 介绍 过 SATA 人 允许 盘 进 入 省 电 模 式 ， 即 Partial 和 Slumber 模 式 。 


Partial/Slumber 省 电 模式 下 ， 盘 都 必须 让 目 己 的 传输 电路 保持 在 工 
作 模 式 ， 以 便 在 SATA 主 机 需要 的 时 候 能 把 盘 唤 醒 。 如 图 8-2 所 示 ， 进 入 
Partial 或 Slumber 后 ，SATA 忌 线 的 发 送 模 块 和 接收 模块 仍然 处 于 工作 状 
态 ， 因 为 这 个 原因 ， 盘 睡 得 并 不 安稳 ， 省 电 效果 也 不 好 。 





Host Device 


SATA 物理 层 
SATA 接口 EE Partial: 恢复 时 间 10hs 
SATA 总 线 Slumber: 恢复 时 间 10ms 


(发 送 端 /接收 端 ) 


设备 控制 器 





图 8-2 主机 与 设备 链接 示意 图 


DevSlp 就 是 把 这 个 传输 电路 完全 关 挥 ， 然 后 专门 加 了 一 个 低速 的 管 
脚 来 负责 接收 唤醒 通知 ， 如 图 8-3 所 示 。 


Host Device 


SATA 物理 层 
SATA dale ——————— Partial; 恢复 时 间 10hs 
Slumber: 恢复 时 间 10ms 


SATA 总 线 
(发 送 端 /接收 端 ) 


设备 控制 器 
| 默认 恢复 时 间 20ms 


知 物理 层 断 电 





图 8-3 DEVSLP 的 带 外 信和 号 

DevSlp 模 式 效果 如 图 8-4 所 示 ， 功 耗 降 低 到 了 5mwWw 左 右 ， 而 恢复 时 
间 进 一 步 延 长 至 20ms， 但 其 实 PC 用 户 根本 感觉 不 出 10hs、10ms、20ms 
的 区 别 。 

那么 问题 来 了 ， 这 个 多 出 来 的 管 脚 从 哪里 来 ? 

原本 标准 的 2.5/3.5 寸 SATA 接 口上 已 经 没有 多 余 的 管 脚 了 了，SATA 
3.2 把 管 脚 3 单独 拿 出 来 用 于 DevSjp， 而 原本 管 脚 1、 管 脚 2 和 管 脚 3 是 用 
于 3.3V 管 脚 供电 的 。 


表 8-1 列 出 了 SATA 3.0 的 管 脚 定义 。 


功 耗 (mW) 















































Active 
1000 
Partial 
10us 
100 
Slumber 
10 ms 
10 
< mW [Iv 
l 
< 20 ms 
[911] 
0 
恢复 时 间 (ms) 
l 10 100 1000 10000 
He . 
图 8-4 DevSIpBixV JEN] $£ 5 Partial/Slumberx Et 
表 8-1 SATA 3.0 管 脚 定 义 
名 称 描述 线 缆 形 式 背 板 形式 
1* Mate 2™ Mate 
-— 2" Mate 3" Mate 
差分 信号 组 A z 7 
S3 2™ Mate 3** Mate 
号 部 分 1* Mate 2™ Mate 
TURN 2" Mate 3" Mate 
差分 信号 组 B 
S6 2™ Mate 3™ Mate 
S7 1* Mate 2m Mate 
P1 733 3.3V Power 2*3 Mate 3? Mate 
3.3V Power 2™ Mate 3" Mate 
V33 3.3V Power, Pre-charge 1* Mate 2m Mate 
1* Mate 1* Mate 
1* Mate 2" Mate 
电源 部 分 
P6 1* Mate 2™ Mate 
5V Power, Pre-charge 1* Mate 2™ Mate 
SV Power 2™ Mate 3" Mate 
V5 5V Power 2™ Mate 34 Mate 


到 了 SATA 3.2， 管 脚 3 用 来 做 DevSlp 控 制 ， 如 表 8-2 上 所 示 。 


表 8-2 SATA 3.2 管 脚 定义 一 管 脚 3 用 于 DevSlp 


线 缆 形式 背 板 形式 





1* Mate 2" Mate 


2*4 Mate 3? Mate 








差分 信号 组 A 
Di 2*! Mate 3 Mate 





信和 号 部 分 S: 1* Mate 2*4 Mate 


2™ Mate 33 Mate 








差分 信和 号 组 B 


2" Mate 3? Mate 





1* Mate 2™ Mate 





Retired 2™ Mate 3" Mate 





Retired 2*3 Mate 3" Mate 





DEVSLP HE / d DevSleep 1* Mate 2™ Mate 





GND 1* Mate 1* Mate 





GND 1* Mate 2*3 Mate 





电源 部 分 
GND 1* Mate 2" Mate 





V5 5V Power, Pre-charge 1* Mate 2" Mate 





V5 5V Power 2?! Mate 3 Mate 


5V Power 2*3 Mate 3" Mate 














1* Mate 2*4 Mate 





DevSlp 注 意 事项 : 

主机 和 设备 都 必须 文 持 该 功能 才 可 以 工作 ， 主 机 置 位 DevSlp 信 和 号 
前 需要 确保 : OOB 结 束 以 后 通过 Identify Device 命 令 获 得 的 设备 回复 支 
持 DevSlp。 

主机 已 经 通过 Set Feature 命 令 打 开设 备 的 DevSlp。 

-没有 还 没 执 行 完 的 命令 。 

主机 置 位 DevSlp 时 : 


.MDAT (Minimum Device Sleep Assertion Time: 主机 要 人 么 不 弄 ， 
要 和 弄 必 须 保持 置 位 状态 210ms (或 者 是 Identify Device Data log 里 规定 的 
时 间 ) ; 


:DMDT (DEVSLP Minimum Detection Time) : 设备 在 DevSlp 置 位 
后 需要 在 10us 内 检测 到 ; 


" .主机 和 设备 可 以 把 PHY 和 其 他 东西 (PLL, e NECH) 都 关 


(zx 


-DevSlp 置 位 后 ， 主 机 和 设备 双方 都 不 可 以 主动 通过 PHY 进 行 
言 ， 即 使 一 方 通信 ， 为 一 方 也 不 准 搭 理 。 


退出 DevSlp 时 : 


:DETO (Device Sleep Exit Timeout) : 设备 必须 在 20ms 或 者 
Identify Device Data log 里 规定 的 时 间 ) 内 检测 到 OOB 信 和 号; 


:双方 使 用 COMWAKE 或 者 COMRESET/COMINIT 重 新 建立 连接 。 





图 8-5 展 现 了 DevSlp 的 进入 /退出 流程 。 
OOB 与 
速度 协商 | 
PE aid i 
DevSleep 


主机 端 接口 PHYRDY/ i | 

电源 状态 Slumber/Partial, ! PHYRDY 
设备 端 接口 ”PHYRDY DevSleep - 

电源 状态 Slumber/Partial | 就 
DEVSLP d 17 —— do Lo 


DMDT >e | DMDT —>| < 
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8.3 SATA 终 极 省 电 模 式 RTD3 


DevSlp 那 么 好 ， 主 机 却 仍 不 满足 ， 因 为 DevSjp 虽 然 功 耗 小 ， 恢 复 时 
间 也 还 行 ， 但 是 进入 DevSjp 的 时 候 Vcc 还 在 ， 这 样 还 是 会 有 功 耗 ， 进 而 
得 寸 进 尺 地 要 求 设备 在 长 期 ldle 后 要 把 Power 完 全 关 掉 。 

在 两 者 的 博 轩 当中 ，SATA SSD 作 为 设备 永远 是 弱势 的 一 方 ， 所 以 
需要 考虑 如 何 满 足 这 个 要 求 : 在 主机 也 束 是 系统 处 于 S$0 的 情况 下 ， 如 何 
让 SATA SSD 进 入 D3Cold 状 态 ， 这 个 束 是 Runtime D3， 简 称 RTD3。 

了 解 以 下 概念 能 够 更 好 地 理解 RTD3。 

ACPI 规 定 的 Device Power State: 


DO: 设备 处 于 工作 状态 ， 所 有 功能 可 用 ， 功 耗 最 高 ， 所 有 设备 都 
必须 文 持 ; 


:DOactive: 设备 完成 配置 ， 随 时 准备 工作 ; 

:D1 和 D2 是 介 于 D3 和 D0 之 间 的 中 间 状 态 ，D1 比 D2 消耗 更 多 的 电 
能 ， 保 存 更 多 的 设备 上 下 文 ，D1 和 D2 是 可 选 的 ， 很 多 设备 都 没有 实现 
这 两 个 状态 ; 

:D3Hot: 设备 进入 D3，Vcc 还 在 ， 设 备 可 被 软件 枚 举 ; 

.D3Cold: 设备 完全 切断 电源 ， 重 新 上 电 时 系统 需要 重新 初始 化 设 
备 。 








表 8-3 列 出 了 不 同 电源 状态 下 功 耗 ， 保 留 设备 上 下 文 以 及 驱动 恢复 
的 具体 信息 。 
表 8-3 ”不同 电源 状态 的 具体 信息 


TERS RHWRITX WWE 








设备 状态 驱动 恢复 
D2 D0>D1>D2>D3hot>D3 »DI 
D3 Hot D0>D1>D2>D3hot>D3 重新 初始 化 并 加 载 驱动 
D3 Cold booo | 无 ” | 重新 初始 化 并 加 载 驱动 





图 8-6 展 现 了 这 些 状态 之 间 的 转换 关系 。 


图 8-6 ”设备 Power State 转 换 关 系 


Partial 和 Slumber 模 式 都 是 只 针对 SATA 链 路 ， 而 D State 是 针对 整个 
SSD， 如 图 8-7 所 示 。 





»yté 
Device = DO Device = D1 | Device = D2 | Device = D3 


PHY= PHY= PHY= PHY= PHY= PHY= 
Resdy Partial | Slumber Slumber Slumber Slumber 


恢复 时 间 








图 8-7 ”Partial 和 Slumber 模 式 与 不 同 电 源 状 态 之 间 的 对 应 关系 


系统 电源 状态 (SATA SSD 作 为 系统 盘 ) : 


SS0: 工作 模式 ， 操 作 系 统 可 以 管理 SATA SSD 的 电源 状态 ，D0 或 
者 D3 都 可 以 ; 


S1: 低 唤醒 延迟 的 状态 ， 系 统 上 下 文 不 会 丢失 CPUS H 
， 便 件 负责 维持 所 有 的 系统 上 下 文 ; 


S2: 与 $1 相似 ， 不同 的 是 处 理 器 和 系统 Cache 上 下 文 会 丢失 (操作 
系统 负责 维护 Cache 和 处 理 器 上 和 下文 ) ， 收 到 唤醒 要 求 后 ， 从 处 理 器 的 
复位 辐 量 开始 执行 ; 

:S3: 睡眠 模式 (Sleep) ，CPU 不 运行 指令 ，SATA SSD 断 电 ， 除 
了 内 存 之 外 的 所 有 上 下 文 都 会 丢失 ， 硬 件 会 保存 一 部 分 处 理 器 和 
L2Cache 配 置 上 下 文 ， 从 处 理 器 的 复位 向 量 开 始 执行 ; 


-S4: 休眠 模式 (Hibernation) ，CPU 不 运行 指令 ，SATA SSD 断 
电 ， 内 存 内 容 写 入 SSD， 所 有 的 系统 上 下 文 都 会 丢失 ， 操 作 系 统 负 责 上 
下 文 的 保存 与 恢复 ; 


:S5: Soft off state, nme 但 操作 系统 不 会 你 他 和 恢复 系统 上 
下 文 ， 消 耗 很 少 的 电能 过 鼠标 键盘 等 设备 唤醒 。 


注意 事项 : 


" 1) 需要 主板 芯片 组 、 操 作 系 统 和 SSD 三 方 都 支持 ，RTD3 才 能 





2) SSD 可 以 支持 D3Hot 或 者 D3Cold 状 态 ; 


3) SSD 不 需 人 三家 目 行 优 化 ， 保 证 从 D3 回 到 D0 的 时 
间 不 能 长 到 能 被 用 户 察 


4) RTD3 和 DevSlp 功 能 完全 独立 ， 可 以 互 为 补充 ， 更 好 地 服务 主 
pl; 


5) 操作 系统 通过 发 送 Standby Immediately 命 令 通 知 SSD 把 脏 数 据 写 
入 闪存 ， 然 后 把 SSD 切 到 RID3 状 态 ; 


6) 与 Partial、Slumber 和 DevSlp 不 同 ， 进 了 RTD3 以 后 ， SSD 上 之 前 
主机 做 的 设置 全 都 没有 了 ， 重 新 上 电 的 时 候 主 机 需要 通过 以 下 命令 恢复 
之 前 的 设置 : 


'SET FEATURES 

:DEVICE CONFIGURATION FREEZE LOCK 

‘SET MAX FREEZE LOCK 

:SET MAX ADDRESS (If V. V attribute is not used) 
'SECURITY FREEZE LOCK 


表 8-4 显 示 了 不 同 省 电 模 式 功 耗 、 转 换 时 间 、 人 恢复 时 延 的 对 比 。 可 
见 ， 使 用 了 RTD3 后 ， 功 耗 为 0， 进 入 时 间 为 1.5$， 退 出 时 间 为 0.6s。 


表 8-4 不 同 的 省 电 模式 功 耗 ， PEREI M, 恢复 时 延 对 比 


TE EA 
空闲 (Slumber) 0.01 


RTD3 不 是 SATA 设 备 的 专利 ，SATA HBA 也 可 以 。 


8.4 PCIe 省 电 模 式 ASPM 


现在 消费 级 笔记 本 里 搭载 SSD 已 经 越 来 越 多 ， 而 搭载 PCIe SSD 也 正 


做 消费 级 SSD 的 厂商 那么 多 ， 但 常见 的 PCIe 主 控 就 那么 几 球 : SMI 
2260、PS5007-E7、88SS1093 和 88NV1140 (三 星 这 个 巨 鱼 就 不 提 了 ) o 
PM ASPM 的 全 称 是 : Active State 
Power Management。 其 实 Active 前 面 还 缺 省 了 两 个 词 ，Hardware 
Initiated — ASPM 的 第 和 一 个 重要 概念 : 这 是 HW 也 就 是 主 控 自己 触发 
的 ， 不 需要 主机 或 者 固件 干涉 ， 如 图 8-8 中 的 高 亮 部 分 。 


Components in the DO state (1.e., fully active state) normally keep their U pstream Link in the active 
LO state, as defined in Section 5.32. ASPM defines a protocol f for components in the DO state to 
reduce Link power by placing their Links into a low power state and instr the other end of the 
Link to do likewise. This capability allows 
beyond what is achievable by software-only controlled (1.e., P 
management. 






-PM software driven) power 


图 8-8 ”PCIe 协议 对 ASPM 的 定义 截图 


ASPMiEPCIe SSD 在 某 种 情况 下 ， 能 够 从 工作 模式 (D0 状态 ) 通过 
把 自身 PCIe 链 路 切换 到 低 功 耗 模式 ， 并 有 旦 通知 对 方 也 这 么 干 ， 从 而 达到 
降低 整 条 链 路 功 耗 的 目的 。 


ASPM 定 义 的 低 功 耗 模式 有 两 种 : L0s 和 L1 ( 见 图 8-9 深 色 部 分 ) 。 


e OO eu 
* 
DAO 


图 8-9 PCIe 链 路 状态 转换 关系 
图 8-9 中 所 示 各 状态 的 定义 如 下 : 
L0: 正常 工作 状态 ; 
LOs: 低 功 耗 模式 ， 恢 复 时 间 短 ; 
L1: 更 低 功 耗 模式 ， 恢 复 时 间 较 长 ; 
:L2/L3Ready: 断 电 前 的 过 渡 状 态 ; 
L2: 链 路 处 于 辅助 供电 模式 ， 极 省 电 ; 
L3: 链 路 完全 没 电 ， 功 耗 为 0; 
LDn: 刚 上 电 ，LTSSM 还 未 完成 前 链 路 所 处 状态 。 


要 看 一 蒜 SSD 是 否 文 持 ASPM， 你 需要 查看 它 的 Link Capabilities 
Register 〈 链 路 能 力 寄存 器 ) 的 bit 11: 0〈 见 图 8-10) 。 


Bit11: 10《〈 只 读 属 性 ) rFORASPMSCHERSER SIE SCIT : 
-00b: 保留 

-01b: 支持 L0s。 

10b: 保留 。 

:11b: 文 持 LOs 和 L1。 


Link Capabilities Register ( 链 路 能 力 寄 存 需 ) 
3l 2423222120191817 1514 12 11. 10:9 43 0 


ASPM 支持 
设置 位 





图 8-10” 链 路 能 力 寄 存 器 


仅仅 支持 是 没有 用 的 ， 还 需要 把 开关 打开 ， 碍 看 链 路 控制 寄存 器 的 
bit1: 0， 如 图 8-11 所 示 。 


Link Control Register ( £j dil ie fi ) 
1211110 9 8 7 6 5 3241 0 


ASPM 控制 
设置 位 





图 8-11 链 路 控制 寄存 器 
Bitl: 0 (可 读 写 属性 ) 中 对 ASPM 控 制 的 具体 定义 如 下 : 


.00b: 禁用 。 


01b: L0s 使 能 。 

10b: L1 使 能 。 

.11b: L0s 和 L1 均 使 能 。 

关于 ASPM 控 制 ，PCIe 协 议 手 册 中 这 样 描述 : 


:LO0s， 即 使 RC 和 EP 某 一 方 的 L0s 是 关闭 的 ， 如 果 对 方 要 求 进 入 
L0s， 本 方 也 要 跟着 进 ; 


LI， 打开 时 必须 先 开 RC， 再 开 EP， 关 掉 时 必须 先 关 EP 再 关 RC; 
-如 果 RC 和 EP 都 支持 ASPM L1， 那 必须 把 EP 的 L1 打 开 。 

L0s 的 流程 比较 简单 : 

进入 : 

:SSD 可 以 直接 在 Tx lane 上 启动 进入 L0s; 

:如果 SSD 的 Tx 的 L0s 被 关闭 ，Rx 还 是 接受 来 自 RC 的 L0s 请 求 。 
退出 : 

:双方 都 可 以 局 动 退 出 流程 ; 


.发 送 FTS (Fast Training Sequence)， 然 后 发 送 一 个 SKP， 对 方 借 
此 恢复 bit 和 symbol lock。 


进入 L1 的 流程 相对 复杂 一 点 ， 如 表 8-5 所 示 。 


Xé8-5 ”PCIe ASPM L1 进 入 流程 





RC 


停止 接收 后 续 的 TLP = 
确认 发 送 的 最 后 一 个 TLP 已 经 收 到 对 方 的 ACK (确保 


Replay Buffer 是 空 的 ) 
确认 FC Credit 足够 (可 以 满足 一 个 最 大 长 度 的 传输 ) = 
持续 发 送 PM Active State Request Ll 给 RC， 直 到 

RC 回复 PM Request ACK 





收 到 PM Active State Request L1 
停止 接收 后 续 的 TLP 


; 确认 发 送 的 最 后 一 个 TLP 已 经 收 到 对 方 的 ACK 
(确保 Replay Buffer 是 空 的 ) 


确认 FC Credit 足够 (可 以 满足 一 个 最 长 的 传输 ) 
持续 发 送 PM Request ACK， 直 到 EP 发 送 
Electrical Idle 





10 — 
11 — 

12 收 到 Electrical Idle, Disable TLP/DLLP 包 的 传输 
13 HA LI 


退出 : 

双方 都 可 以 启动 退出 流程 ; 

:不 是 发 送 FTS， 而 是 重新 进行 Link Training; 

:唤醒 发 起 方 ， 发 送 TS1， 走 LTSSM 的 恢复 步骤 重新 建立 连接 。 
最 后 说 一 下 链 路 控制 寄存 器 的 bit7，Extended Sync. 


Link Control Register ( 链 路 控制 寄存 " F) 
1211 10 9 & 7 6:8 43 













Extended 
Sync 
图 8-12 ” 链 路 控制 寄存 器 定义 


Extended Sync 是 一 个 神奇 的 bit， 置 上 以 后 从 L0s 和 L1 退 出 时 ， 设 备 
会 发 超 多 的 FTS 和 TS1， 最 终 让 双方 “握手 "成功 〈 见 图 8-13) 。 





Section 4. 2 4 5) and m 
Section 42 6.4 1). This mode provides extemal devices (e g., 
logic analyzers) monitoring the Link time to achieve bit and 
Symbol lock before the Link enters the LO state and resumes 
communication. 


For multi-Function devices if any Function has this bit Set, then 
the component must transmit the additional Ordered Sets when 
exiting LOs. 


Default value for this bit is Ob. 


图 8-13 Extended Sync 定义 


这 个 模式 是 当 链 路 中 有 额外 设备 〈 例 如 PCIe 分 析 仪 ) 时 ， 为 保证 能 
够 正常 达到 bit 和 symbol lock 用 的 。 


但 是 过 到 ASPM L1 回 不 来 或 者 开机 找 不 到 PCIe 设 备 的 情况 ， 也 可 以 
通过 设置 这 个 bit 收 集 更 多 的 参考 数据 。 





8.5 “PCIe 其 他 省 电 模 式 


PCIe 链 路 L2 状 态 下 ， 所 有 的 时 钟 和 电源 全 部 关闭 ， 能 够 保证 最 大 的 
A BAUR, 但 同时 ，L2 的 退出 时 间 相应 也 增加 了 很 多 ， 达到 了 毫秒 级 
别 。 这 样 的 时 间 在 很 多 应 用 场景 下 是 无 法 接受 的 。 


要 比 L1 更 省 电 ， 比 L2 时 间 更 短 ，PCI-SIG 顺 理 成 章 地 和 弄 出 了 两 个 新 
的 ASPM Sub 状 态 : L1.1 和 L1.2。 想 要 使 用 L1.1 和 L1.2，RC 和 EP 都 必须 
支持 并 打开 这 个 功能 ， 同 时 还 必须 支持 CLKREQ# 信 和 号。 


在 L1.1 和 L1.2 模 式 下 ，PCIe 设 备 内 部 的 PLL 处 于 关闭 状态 ， 参 考 时 
钟 也 不 保留 ， 发 送 和 接收 模块 同样 和 关闭， 不 需要 像 L1 状 态 下 那样 去 侦 测 
Electrical Idle E 


L1.1 和 L1.2 的 区 别 在 于 ，L1.1 状 态 下 Common Mode Voltage 仍 然 打 
开 ， 而 L1.2 下 会 将 之 关闭 。 因 为 Common Mode Voltage 恢 复 需 要 时 间 ， 
L1.2 的 退出 时 间 相 对 比 L1.1 长 一 些 。 


从 表 8-6 中 可 以 看 到 L1、L1.1、L1.2 功 耗 和 时 延 对 比 。 
表 8-6 L1、L1.1、L1.2 功 耗 和 时 延 对 比 


电源 状态 状态 ( 开 / 关 ) 目标 


链 路 状态 | PHY/PIPE Ja / 发 送 端 | Common Mode Keepers | 1 条 Lane WIFE | 退 山 时 间 


20'sof mW 5 us (retrain) 
Tl P1 2 
10's of mW 20 us(PLL Off) 


使 用 L1.1L1.2 后 ， 功 耗 从 毫 瓦 级 别 降 到 了 微 瓦 级 别 ， 相 比 之 下 时 延 
的 增加 完全 在 可 接受 的 范围 内 。 





8.6 NVMe 动 态 电源 管理 


PMC (MicroSemi) 管 自 己 的 PCIe SSD 主 控 叫 Flashtec NVMe 控 制 
器 ， 一 共有 4 款 : PM8602NVMe1016、PM8604NVMe1032、 
PM8607NVMe2016 和 PM8609NVMe2032。 其 实 主要 是 有 两 款 ，10xx 和 
20xx， 分 别 文 持 16 和 32 通 道 。 


在 看 官网 的 介绍 时 ， 有 这 么 一 段 话 介绍 电源 管理 优化 的 ， 如 图 8-14 
所 示 。 


Microsemrs NVMe1032 nas been optimized ror power savings using a combination or arcnitectural and semiconductor design 
techniques. Emphasis has been given not only to absolute power consumption, but also to advanced power management features, 


including, automatic idling of processor cores and autonomous bilities. The NVMe1032 allows the platform to 






provide power and performance objectives through the allowing 


firmware to effectively manage power and performance 


图 8-14 Microsemi 官 网 电源 管理 优化 介绍 截图 
里 面 提 到 一 个 术语 ， 叫 作 Enterprise NVM Express dynamic power 
management interface。 企 业 、 动 态 、 电 源 管 理 、 接 口 ， 瞬 间 沉 得 有 点 高 
pur 
第 一 个 问题 ， 什 么 是 Enterprise NVMe? 


Bing 了 半天 搜 不 到 。 问 了 一 圈 周 围 的 高 人 ， 也 都 说 没 听 过 ， 基 本 确 
认 加 上 Enterprise 这 个 前 级 是 为 了 提升 档次 。 


第 二 个 问题 ，NVMe 电 源 管理 都 包括 什么 ? 


然后 ， 查 到 图 8-15 所 示 的 这 个 路 线 图 。 








NVMe 1.2 — Q4 2014 


* Host Memory Buffer 

* Replay Protected Memory 

* Active/ldle Power and RTD3 
* Temperature Thresholds 

* Namespace Management 

* Enhanced Status Reporting 

* Pass through support 

* Controller Memory Buffer 

* Firmware Update w/ no Reset 
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* End-to-End Protection 
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图 8-15 NVMe 路 线 图 
路 线 图 中 电源 管理 相关 的 内 容 包括 : 
Autonomous Power Transition; 
Active/Idle Power; 
人 ID3。 
第 三 个 疑问 ，Dynamic Interface 是 什么 ? 


E SE, NE. 


翻 NVMe 协 议 手 册 (NVMe 1.2a) ， 看 图 8-16 中 的 高 亮 部 分 ，PMC 
说 的 动态 接口 应 该 就 是 对 应 NVMe 电 源 管理 这 部 分 。 


8.4 Power Management 





The power management capability allows the host to manage NVM subsystem power statically or 
dynamically. Static power management consists of the host determining the maximum power that may be 


allocated to an NVM subsystem and setting the NVM Express power state to one that consumes this 
amount of power or less. is i in Fi 7 and consists of the host: 

jecti This 
power management mechani o complement and not replace autonomous power management 


performed by a controller. 






图 8-16 NVMe 1.2a Section 8.4 


NVMe 协 议 里 给 出 了 动态 电源 管理 的 框图 〈 见 图 8-17) 。 


功 耗 目标 
Power Stste 











性 能 目标 


图 8-17 NVMe 动 态 电 源 管理 逻辑 图 


功 耗 目标 和 性 能 目标 作为 系统 应 用 层面 的 输入 ， 发 送 给 主机 端的 
NVMe JJ. 


NVMe Power State: NVMe (Identify Controller Data Structure) 
最 多 支持 32 个 Power State Descriptor〈 电 源 状 态 描述 符 ) ， 如 表 8-7 所 
示 。 其 中 Power State Descriptor 0〈0 号 电源 状态 摘 述 符 ) 是 必须 文 持 
的 ， 其 他 都 是 可 选 。 当 然 ， 如 果 只 文 持 一 个 ， 也 别 用 什么 动态 管理 了 。 


表 8-7 NVMe 电 源 状 态 描述 符 


电源 sa 
3071:3040 可 选 电源 状态 描述 符 31 


一 个 Power State Descriptor 的 具体 数据 结构 为 32Byte， 定 义 了 该 电源 
状态 下 的 各 种 属性 ， 有 具体 各 位 定义 如 下 : 


255. 184: 保留 
183: 182: Active Power Scale， 工 作 模 式 功 耗 粒度 ; 
.181: 179: 保留 


.178: 176: Active Power Workload， 用 于 计算 工作 模式 功 耗 的 工作 
负载 ; 


:175: 160: Active Power， 工 作 模 式 平 均 功 耗 ， 这 个 值 乘 以 工作 模 
式 功 耗 粒 度 ， 就 是 工作 情况 下 的 实际 功 耗 值 ; 


:159: 
:151: 
:149: 


:143: 
功 耗 粒度 ， 


"127: 


"124: 


152: 
150: 
144: 


128: 
WE 


125: 


120: 


保留 

Idle Power Scale， 空 闲 模式 功 耗 粒度 ; 

保留 

Idle Power， 空 闲 模式 平均 功 耗 ， 这 个 值 乘 以 空闲 模式 





空 采 情况 下 的 实际 功 耗 值 ; 


保留 ; 


Relative Write Latency， 写 延迟 ， 值 越 小 代表 延迟 越 低 


(这 个 值 的 分 级 级 数 必须 小 于 主 控 文 持 的 电源 状态 数量 ， 主 控 不 能 一 边 
只 支持 5 个 电源 状态 ， 一 边 又 支持 10 种 写 入 延迟 ) 


:119: 

:116: 
吐 量 越 高 
量 ) ; 

:111: 

:108: 
低 ; 

:103: 

:100: 
吐 量 越 高 ; 


117: 


112: 


保留 
Relative Write Throughput， 写 入 吞吐 量 ， 值 越 小 代表 知 


《这 个 值 的 分 级 级 数 同样 必须 小 于 主 控 文 持 的 电源 状态 数 


109: 


104: 


101: 


保留 
Relative Read Latency， 读 延迟 ， 值 越 小 代表 延迟 越 


保留 


96: Relative Read Throughput, iXHU mH E, ERREFE 


: 64: Exit Latency， 退 出 该 电源 状态 的 时 间 〈 微 秒 级 ) ; 

: 32: Entry Latency， 进 入 该 电源 状态 的 时 间 《 微 秒 级 ) ; 

: 26: 保留 

: Non-Operational State， 为 “0 代表 在 这 个 电源 状态 主 控 可 以 处 


理 IO， 为 “1” 代 表 在 这 个 电源 状态 主 控 不 E 处 理 IO; 


:24: Max Power Scale， 最 大 负载 功 耗 粒 度 ; 
.23: 16: 保留 ; 


.15: 00: MaximumPower， 最 大 负载 功 耗 ， 这 个 值 乘 以 最 大 负载 功 
耗 粒度 ， 束 是 最 大 负载 情况 下 的 实际 功 耗 值 。 


主机 和 主 控 之 间 ， 束 通过 对 这 些 值 的 修改 ， 实 现 如 图 8-18 所 示 的 沟 
通 。 







EH br 


图 8-18 ”主机 和 控制 器 之 间 交 流 电 源 状态 和 性 能 信息 


同时 主机 通过 Entry Latency 和 Exit Latency 两 个 值 ， 做 出 决策 是 否 进 
入 ， 何 时 进入 某 个 电源 状态 。 


第 四 个 问题 ， 主 机 的 具体 操作 都 有 哪些 ? 


1) 主机 给 主 控 发 个 Identify Controller 命 令 ， 主 控 会 回复 一 个 4K 的 
数据 包 。 


2) 主机 解析 字 节 263 获 知 主 控 支 持 的 电源 状态 的 数量 。 


3) 主机 解析 字 节 2079: 3140 获 知 每 个 电源 状态 下 主 控 的 具体 属 





例如 主 控 可 以 文 持 四 种 电源 状态 : 


PSO: 均衡 模式 (平衡 考虑 功 耗 、 读 写 性 能 、 延 运 、 但 每 个 都 不 突 
H) ; 


:PS1: OLTP 模 式 ， 大 量 随机 小 IO 〈 要 求 低 延 迟 ) ; 





.PS2: 视频 模式 ， 大 小 连续 大 IO 〈 要 求 高 吞吐 量 ) ; 
:PS3: 绿色 模式 ， 低 能 耗 。 


NVMe 协 议 里 也 给 出 了 不 同 电源 状态 的 示例 ， 如 表 8-8 所 示 。 


表 8-8 不 同 电 源 状态 对 比 


| 
| a s | lojalt 
8| e | e | we | ws | 


20 5 | » | s qo 2 [| o [ 2 | 
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4) 主机 根据 正在 运行 的 应 用 (例如 邮箱 服务 、 数 据 库 服务 、 视 频 





服务 和 股票 交易 服务 等 ) 选择 主 控 合 适 的 电源 状态 ， 有 具体 实现 是 通过 
Set Featurefp (Feature ID 0x02) ， 在 DW 11 的 Bit 04: 00， 如 表 8-9 和 
表 8-10 所 示 。 
表 8-9 Set Feature 命 令 中 功 耗 管理 定义 
功能 ID 功能 1D 描述 
00h i FE [3] fg 
01h ram 命令 错误 恢复 
02h HREM M | ((?(ü. 
03h LBA 范围 类 型 
表 8-10” 功 耗 管理 命令 DWORD11 定 义 
位 描述 
31:08 保留 
07:05 负载 类 型 : 指明 使 用 工作 负载 的 类 型 ， 用 于 优化 性 能 
04:00 电源 状态 : 指明 设备 接 下 来 准备 转 入 的 电源 状态 


主机 也 可 以 通 
如 图 8-19 所 示 。 











过 Get Feature 命 今 


令 来 获知 当前 主 控 所 处 的 电 


电源 状态 0 





空闲 > 50 ms 


电源 状态 
电源 状态 ”可 操作 RAJH ”进入 延迟 ”退出 延迟 


Poo EE ET ne [ ne 





| 
nl liww [| jme | 5m 





空闲 > 500 ms 





图 8-19 ” 功 耗 状态 跳 转 示例 


设 几 个 状态 跳 来 跳 去 容易 ， 而 具体 的 跳 转 策略 要 结合 当前 IO 模式 、 
功 耗 要 求 和 EntervExit 延 迟 来 决定 跳 不 跳 ， 何 时 跳 ， 跳 哪里 ， 这 才 是 核心 
价值 。 这 块 没 法 继续 看 手册 找 答案 了 ， 如 果 有 条 件 ， 抓 几 个 典型 应 用 场 
景 切换 时 的 PCIe trace， 那 应 该 可 以 发 现 部 分 策略 ， 男 外 可 以 读 到 支持 的 
Power State Descriptor， 可 能 也 能 反 推出 一 些 策略 的 考虑 点 。 


8.7 Power Domain 


对 于 一 块 SSD， 尤 其 是 用 于 消费 级 的 SSD， 为 什么 功 耗 这 么 重要 ? 
因为 对 于 消费 级 来 说 最 大 的 市 场 是 OEM， 而 OEM 市 场 里 笔记 本 市 场 拱 
载 已 经 是 大 势 所 趋 ! 

笔记 本 与 台式 机 相 比 的 两 大 特点 : 

用 电池 。 

-结构 相对 紧凑 。 


要 求 电池 寿命 长 ， 要 求 SSD 功 耗 低 ， 结 构 紧 竣 ; 要 求 SSD 体 积 小 ， 
发 热 少 。 这 都 意味 着 SSD 必 须 控制 功 耗 。 


我 们 以 SMI 的 某 球 主 控 为 例 ， 看 看 它 是 如 何 进 行 功 耗 控 制 的 ， 如 表 
8-11 所 示 。 





表 8-11 某 SMI 主 控 功 耗 控 制 


TT TER 


跟 PMC 的 做 





又 看 到 了 NVMe Power State 这 个 熟悉 的 配方 ， 没 错 
法 差不多 : 


.提前 在 固件 中 定义 好 一 系列 不 同 的 电源 状态 ， 不 同 的 电源 状态 配 
置 PCIe 链 路 状态 、SSD Active/Idle、 功 耗 比 、 退 出 时 延 等 ; 


通过 NVMe 下 发 切换 电源 状态 的 指令 。 


从 功 耗 这 列 可 以 看 到 ， 功 耗 可 以 降低 到 正常 工作 状态 下 的 40%， 甚 
至 更 低 ， 仅 靠 调 整 PCIe Link State 是 没 办 法 省 这 么 多 电 的 。 





这 样 就 引入 了 Power Domain 的 概念 ， 如 图 8-20 所 示 。 
从 图 8-20 中 可 以 看 到 ， 主 控 把 蕊 厂 内 部 的 模块 划分 成 了 几 个 部 分 ， 


学 名 叫 Power Domain， 简 称 PD。 


Analog IP 









PD #0 PD #1 
Always-on/PCle PHY )§( Sys Bus,Buffer,NVMe DMA, 
LDPC/RAID,NAND CTRL) 


( 


PD #2 





(CPU/DRAM ) 
Kj8-20 SMI 主 控 必 片 模块 划分 


‘PD#0: Always-on/PCle PHY; 


:PD#1: 最 大 的 一 部 分 ， 包 括 Sys Bus. Buffer. NVMe DMA, 
LDPC/RAID NAND CTRL; 


:PD#2: CPU/DRAM. 
整个 节能 逻辑 的 大 致 演绎 如 下 : 


1) 主机 一 段 时 间 没 有 读 写 ， 触 发 SSD 的 PCIe 链 路 进入 ASPM， 退 出 
延迟 非常 短 ; 

20 主机 继续 Idle，PCIe 链 路 进入 ASPM Substate，SSD 仍 处 于 工作 
模式 ， 退 出 延迟 也 很 短 ; 


3) 主机 继续 Idle， 主 控 操 作 PD#1 (关闭 NVMe 模 块 、 各 级 FIFO、 
ECC 模 块 、 闪 存 控 制 器 等 ) ，SSD 进 入 Idle Mode， 退 出 延迟 明显 延长 ; 


4) 主机 继续 Idle， 主 控 操 作 PD#2， 将 CPU 进 入 睡眠 模式 ，DRAM 
进入 Self Refresh 模 式 ， 进 入 最 高 节能 模式 ， 退 出 延迟 最 长 ; 
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围 ， 再 把 时 钟 调 回 正常 工作 频率 ， 如 图 8-21 所 示 。 


J A TF 
设备 温度 


散热 情况 


图 8-21 SSD 主 控 温度 调节 波形 图 


^9:zi ECC 原 理 


我 们 知道 ， 所 有 型 号 的 闪存 都 无 法 保证 存储 的 数据 会 永久 稳定 ， 这 
时 候 就 需要 ECC 〈 纠 错 码 ) 去 给 闪存 纠 错 。ECC 能 力 的 强 弱 直接 影响 到 
SSD 的 使 用 寿命 和 可 靠 性 。 本 章 将 简单 介绍 ECC 的 基本 原理 和 目前 最 主 
流 的 ECC 算 法 LDPC. 
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噪声 信号 充斥 独 整 个 世界 ， 不 只 包括 打 电话 时 对 方 声 噶 力 竟 的 喊 
声 ， 也 包括 还 钱 时 手 拌 多 按 的 一 个 0， 甚 至 在 生物 学 领域 ， 基 因 对 的 复 
制 依 差 、 交 细胞 的 产生 、 意 外 突破 橡胶 屏障 的 新 生命 都 可 以 划 入 噪声 信 
号 的 范畴 。 凡 是 有 信息 传递 的 地 方 就 有 了 噪声。 我们 唯一 能 做 的 是 ， 把 品 
声 限制 在 一 定 大 小 的 笼子 里 。 


如 何 建造 这 样 一 个 笼子 ? 我们 看 一 下 历史 的 经 验 。 

场景 是 ， 重 和 蛋 每 天 坐 地 铁 都 会 邂逅 一 个 美丽 的 女孩 。 两 人 日 人 相 
熟 ， 经 营 相 视 一 和 失 ， 却 默然 无 语 。 转 眼 间 ， 集 集束 要 离开 这 个 城市 ， 他 
决定 勇敢 地 表白 。 


表白 的 地 点 还 是 那 一 班 地 铁 。 唯 一 的 困难 是 地 铁 太 吵 了 ， 女 神 能 够 
a 000 




















D 扩 音 厂 一 个 。 
每 个 字 清 晰 地 说 三 过 。 
3) 结尾 用 手 比 画 一 个 爱心 出 来 。 


利用 扩 音 器 可 以 改善 有 效 信号 和 噪声 的 强度 比 ， 为 女神 准确 地 接收 
做 了 基础 建设 。 每 个 字 说 三 届 ， 增 加 了 信息 的 见 余 ， 即 使 有 少量 字 没有 
听 清 ， 也 不 影响 表达 的 内 容 。 结 尾 一 个 爱心 的 手势 ， 增 加 对 关键 信息 的 
WIF, EDRR EKER, MERKAR. 
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的 情况 下 ， 如 何 尽 量 准 确 地 传递 信息 。 


实际 通信 中 ， 我 们 用 information bits 表 示 有 效 信息 长 度 ，channel use 
表示 实际 通信 中 传输 的 信息 长 度 。 定 义 : 


Wo 


2 























Code rate = (information bits) / (channel use) 





ENUT, ANEA =m, BIULEEGKHIRICode rate731/3. 


Code rate 可 以 反映 见 余 程度 。Code rate 越 高 ， 见 余 越 小 ， 反 之 见 余 
越 大 。Shannon 揭 示 了 ， 每 一 种 实际 的 信息 传输 通道 都 有 一 个 参数 C， 如 
果 Code rate <C， 有 效 信 息 传 递 的 错误 率 可 以 在 理论 上 趋 近 于 0。 但 是 
如 何 趋 近 于 0， 就 是 纠 错 编 码 (Error correction code) 要 做 的 事情 了 。 


T U 0 HM 即 所 有 的 信息 都 是 用 二 进 
Xe zo 











9.2 ”通信 系统 模型 


所 有 的 信息 传播 都 少不了 通信 系统 ， 一 个 完整 的 通信 系统 模型 ， 信 
晨 由 信息 源 产生 ， 由 发 送 右 发 送出 信号 ， 通 过 包含 噪声 的 信号 传输 通道 
penes 信道 ) 、 到 达 接 收 器 ， 再 由 接收 右 提 取出 信息 发 送 到 目的 
地 。 





整个 框图 如 图 9-1 所 示 。 





信息 源 AC d TEATUUNGE ! 目的 地 
Aa 35 





图 9-1 通信 系统 框图 


回 到 熏 熏 跟 女 神 表白 的 例子 ;和 捍 皇 心中 所 想 就 是 信息 源 ， 发 送 器 是 
神经 和 肌肉 控制 的 嗓子 ， 声音 惑 是 信号 ; 哮 杂 的 车 厢 就 是 Channel;， 女 
神 的 耳 杀 就 是 接收 器 ， 最 终 信息 反映 到 女神 大 脑 中 。 


SSD 存 入 和 读 出 信息 也 是 一 个 通信 和 系统。 信息 是 用 户 写 入 的 原始 数 
据 ， 经 过 SSD 后 端的 发 送 器 处 理 后 转化 为 内 存 的 program， 信 号 就 是 内 
存 上 存储 的 电荷 ， 电 和 荷 存储 时 会 有 自 喘 泄露 并 在 读 的 过 程 中 受到 周围 电 
和 谷 的 影响 ， 这 是 内 存 的 信道 特性 ， 最 后 数据 通过 SSD 后 端的 读 取 接收 顷 


在 二 进 制 编码 的 系统 中 ， 有 两 种 常见 的 Channel 模 型 一 一 
BSC (Binary Symmetric Channel， 二 进 制 对 称 信道 ) 和 BEC (Binary 
Erasure Channel， 二 进 制 控 除 信道 ) 。 一 句 话 区 分 BSC 和 BEC: BSCH 
音 《〈 接 收 者 收 到 的 0 不 一 定 是 0， 可 能 发 送 者 发 送 的 是 1; 同样 ， 收 到 的 1 
不 一 定 是 1， 可 能 发 送 者 发 送 的 是 0) ; BECZbit (接收 者 如 果 收 到 
0 0D ， 那 么 发 送 者 发 送 的 肯定 是 0 CD ;如 果 传 输 发 生 错 误 ， 接 收 者 
则 接收 不 到 信息 ) 。 


BSC 模 型 如 图 9-2 所 示 。 














二 进 制 信号 由 0、1 组 成 ， 由 于 Channel 噪 声 的 影响 ，0、1 各 有 相同 
的 概率 p 翻 转 ， 即 0 变 1，1 变 0。 信 和 号 仍然 保持 不 变 的 概率 为 1-p。 


例如 一 串 二 进 制 信号 ， 在 经 过 BSC 模 型 后 ， 原 始 信 
号 “101001101010” 变 为 *111001111000”。 


BEC 模 型 如 图 9-3 所 示 。 





lp 


l-p 
图 9-2 BSC 模型 





l- c 
图 9-3” BEC 模型 











BEC 模 型 认为 在 信号 传输 中 ， 无 论 是 0 还 是 1 都 有 一 定 概率 变 为 一 个 
无 法 识别 的 状态 。 


例如 一 串 二 进 制 信号 ， 在 经 过 BEC 模 型 后 ， 原 始 信 
号 “101001101010” 变 为 “1x10011x10x0”(x 表 示 未 知 状 态 )。 


对 于 SSD 里 的 Channel 模 型 一 般 采 用 BSC， 即 认为 内 存 信号 发 生 了 一 








定 概率 的 位 翻转 Cbit-flip) 。 





为 了 使 得 信息 从 源 六 (source) 在 经 过 噪声 的 信道 后 Rl ye 
目的 地 ， 我 们 要 对 信息 进行 编码 ， 通 过 增加 元 余 的 方式 保护 信息 


基本 流程 如 图 9-4 所 示 ， 具 体 说 明 如 下 。 





Source 发 出 的 信息 可 用 k bit 的 信息 x 表示 ， 经 过 编码 器 (Encoder) 
转化 为 n bit 信 号 c。 这 个 从 k bit 到 n bit 的 过 程 叫 编码 过 程 ， 也 是 添加 元 余 
的 过 程 。 信 号 c 的 所 有 集合 叫 编码 集合 。 


AS iln s ADS, 过 Channel 后 ， 接收 器 收 到 信号 n bit 信 号 


y， 经 过 解码 器 (Decoder) fk bit 信 息 X ; 这 个 过 程 是 解码 过 程 ; 
如 图 9-4 所 示 。 

















图 9-4 ”信息 编码 解码 过 程 


9.3 £f RO ES] A ZI ELTE 


纠 错 纺 码 的 核心 设计 思想 是 通过 增加 元 余 信 息 ， 使 得 原始 信息 的 纺 
码 之 间 有 足够 大 的 区 别 。 


9.3.1 编码 距离 


和 皇 抹 表白 时 的 信息 为 "我 喜欢 你 ?四 个 字 ， 为 了 防止 女神 听 不 到 ， 他 
添加 了 元 余 信息 。 经 过 策 重 添加 元 余 后 变 为 了 “我 我 我 喜 辟 喜欢 欢 欢 你 
你 你 >?”， 其 实 女 神 收 到 的 信号 为 (我 我 俄 Txx 欢 花 欢 xx 里 ) ， 其 中 x 表 示 
为 邻 座 大 妈 的 霸气 笑 声 ， 女 神 是 如 何 正确 地 捕捉 到 香 熏 意 几 的 呢 ? 显然 
女神 在 这 方面 很 有 经 验 ， 识 破 了 竺 各 重复 三 过 的 仪 俩 ， 电 光 火 石 间 ， 在 
她 脑海 里 飞速 搜索 比 对 推理 ， 得 出 一 个 通顺 而 有 意义 的 结论 。 换 句 话 
说 ， 在 女神 的 词典 中 ， 有 意义 的 语句 全 都 列 出 来 ， 发 现 跟 香 生发 出 声音 
最 相似 的 就 是 : “我 我 我 喜 辟 喜欢 欢 欢 你 你 你 ”。 


女神 的 词典 可 以 看 成 所 有 可 能 编码 的 集合 ， 如 何 衡量 这 个 编码 集合 
中 容易 混淆 的 程度 呢 ? 这 个 参数 就 是 编码 距离 。 什 么 是 距离 呢 ? 这 里 的 
距离 指 的 是 汉 明 距离 ， 即 两 个 信号 之 间 有 和 多少 bit 不 同 。 比 如 信号 (0， 
1, 1 5 (0, 06, 0 的 距离 为 2， (1，1，1) 与 (0，0，0) 的 距离 为 
Bo 





























蛋 蛋 有 4 个 信息 ， 为 00，01，10，11。 现 在 如 何 插入 宛 余 呢 ? 
首先 想到 的 是 重复 法 : 

-00 变 为 00000000; 

.01 变 为 01010101; 

.10 变 为 10101010; 

.11 变 为 11111111。 


现在 接收 的 到 信号 为 00010000， 我 们 发 现 跟 这 个 信号 最 相似 的 是 
00000000， 距 离 为 1。 


一 个 编码 集合 里 ， 大 家 不 一 定 是 均匀 分 布 的 ， 有 些 编码 之 间距 离 比 
较 近 ， 有 些 比较 远 ， 编 码 距 离 指 的 是 最 近 的 两 个 编码 之 间 的 距离 。 


解码 的 时 候 ， 一 个 最 暴力 的 方法 就 是 一 一 比较 接收 到 的 信号 和 所 有 





























有 效 编 码 之 间 的 编码 距离 ， 选 择 编码 距离 最 小 的 。 所 以 编码 距离 的 重要 
作用 是 可 以 指示 编码 纠 错 的 bit 个 数 。 蛋 香 和 阿 采 住 在 不 同 的 地 方 ， 相 距 
Nde EERI PF. MARERE. FALE, AREFE 
USB Fd2, W AAE T ERLEAK. Hr AXT U ERO rf] 
So WEA Nd, Hbi XU Ta2. lp n] ARIE A UE SL 
归 谁 的 原则 去 纠 错 《〈 赶 羊 回 家 ) 。 
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& CParity- 


收 钱 的 阿姨 狐疑 地 拿 起 重重 递 过 来 的 100 块 钱 ， 迎 着 灯光 仔细 打量 
过 后 ， 又 取出 了 紫外 线 灯 从 头 到 尾 照 了 一 下 ， 终 于 把 钱 放 进 钱 例子 里 ， 
找 了 入 皇 99 其 5。 阿 姨 担 心 收 到 假币 ， 她 检查 钞票 可 不 敢 马 虎 。 


阿姨 检查 钞票 的 行为 叫 信 号 校 验 ， 信 和 号 校 验 的 基本 模型 是 : 对 信和 号 
A f $12] TZ LTEM ML, BRER 
IX e 


这 里 信号 用 y 表 不 ， 特定 的 处 理 用 H 表 示 。H 表 示 对 信号 y 进 行 了 处 
。 处 理 结果 用 CR 表示 。 


_ | 0， 校 验 通过 
CR-^H ( 
"n 1l, 校 验 id 


在 二 进 制 的 世界 里 ， 最 基础 的 校 验方 法 是 奇偶 校 验 ， 即 Parity- 
Check。 


对 于 nbit 二 进 制 信和 号 





0, 1 的 个 数 为 偶数 
1, 1 的 个 数 为 奇数 


例如 长 度 为 16 的 二 进 制 数据 :1000100111011011， 其 中 1 的 个 数 为 
9， 故 CR=1。 


判断 信号 里 的 1 的 个 数 为 奇 还 是 侦 ， 有 非 第 简单 的 方法 。 在 二 进 制 

， 有 一 种 异 或 ( 即 xor) 运算 ， 符 号 为 @， 运 算 方式 是 移 进行 加 法 运 
a 然后 用 运算 结果 对 2 取 余 数 (mod (20 ) ， 或 者 更 简单 地 记 为 “ 相 
加 不 进位 ”〈 见 图 9-5) 。 


CR=H Q2 -| 








图 9-5 ” 寞 或 运算 表达 式 


可 以 验证 只 要 把 二 进 制 的 每 一 个 bit 依 次 进行 xor 运 算 ， 奇 数 个 bit 1 的 
结果 为 1， 偶 数 个 bit 1 的 结果 为 0， 与 bit 0 的 个 数 无 关 。 


所 以 ， 用 yi 表示 第 i bit 的 值 (0 或 1) ， 有 
CR-H (y) zy, y, y, ...Oy, 


TIRE HB E n] CA P ie de fr BRI S RS — — fbit S ROSPC CHI 
single bit parity check code) . 


把 长 度 为 n 的 二 进 制 信息 增加 1bit yn+1 变 成 yy， 使 得 : 
CR-H (y') zy, Gy, By3... Dy Gy, =0 Ca) 
现在 y 构 成 了 y 的 单 bit 校 验 码 。 (a) 又 叫 作 奇偶 校 验方 程 。 


显然 ，y 中 任意 一 个 bit 如 果 发 生 bit 反 转 ， 无 论 从 0 到 1， 还 是 1 到 0， 
校 验 方程 CR=1。 


SPC 可 以 探知 任意 单 bit 的 反 转 。 对 于 偶数 个 bit 反 转 SPC 无 法 探知 。 
而 且 校 验方 程 无 法 知道 bit 反 转 的 位 置 ， 所 以 无 法 纠 错 。 


一 个 目 然 的 想法 是 ， 增 加 SPC 的 个 数 ， 增 加 元 余 的 校 验 信息 。 同 一 
个 bit 被 好 几 个 校 验方 程 保护 ， 当 它 出 现 错误 时 就 不 会 被 漏 掉 。 


MAKLER, HHE O. 


9.3.3. PERAE PEHI Æ RAE REG 


梨 梨 的 丈 母 女 在 女儿 结婚 前 对 未 来 女 婚 有 一 个 要 求 列表 ， 前 五 条 
是 : (DD 要求 有 博士 学 位 ，@ 脾 气 要 好 ，(8) 人 要 长 得 帅 ， 会 做 家 务 ，@®) 
收入 上 交 。 

这 样 ， 和 借 重 的 丈 母 女 通过 提出 要 求 ， 束 轻而易举 实现 了 对 地 球 上 所 
有 男性 同胞 的 一 个 划分 。 每 一 条 要 求 都 是 一 个 校 验 方程 。 什 么 样 的 校 验 
方程 组 ， 决 定 了 这 个 男性 同胞 群 到 底 由 哪些 人 组 成 。 

多 个 校 验方 程 可 以 表示 为 校 验 窍 阵 了 。 有 了 了 就 可 以 确定 所 有 正确 
的 码 字 。 

对 于 所 有 Xx Og. X1? X2% Xqo X45 Xs.) ， 只 要 满足 HxT =0，xX 
就 是 正确 的 码 字 。 如 果 不 满足 ， 则 x 不 属于 正确 的 码 字 ， 认 为 在 传输 的 
过 程 中 x 出 现 了 错误 。 

举例 : 长 度 为 4 的 信号 ，x (Xo > X1» X55 X4 ) ， 有 两 个 校 验 方 


程 : 








Xo +X -0 
X, +X2 +X3 =0 


MEHHRË e: 


1010 
H = 
gip 
m - Xo T X5 
A tL 0X, 


| HW, HABPEH fj fru Udo — ERIS Ee. TERIM EK 
示 信 号 中 第 i bit 参 与 校 验 方程 。 


所 有 满足 奇偶 校 验 方程 的 x 组 成 了 一 个 编码 集合 。 一 般 来 说 ， 编 码 
长 度 为 n bit， 有 r 个 线性 独立 的 校 验 方程 ， 则 可 以 提供 k= (r) 个 有 效 
信息 bit 和 r 个 校 验 bit。 


对 于 线性 分 组 编码 而 言 ， 原 始 信 号 u 经 过 一 定 的 线性 变换 可 以 生成 
纠 错 码 c， 完 成 见 余 的 添加 。 线 性 变换 可 以 写成 矩阵 的 形式 ， 这 个 矩阵 
就 是 生成 矩阵 G， 表 示 为 c=uG。 


其 中 ，c 为 n bit 信 号 ，u 为 k bit 售 号 ，G 为 kxn 大 小 的 矩阵。 由 H 和 矩阵 
可 以 推导 出 生成 矩阵 G。 

















9.4 LDPC 码 原理 简介 


在 纠 错 码 的 江湖 里 ，LDPC 以 其 强大 的 纠 错 能 力 ， 得 到 了 广大 工程 
师 的 青睐， 是 目前 最 主流 的 纠 错 码 。 本 节 将 带领 大 家 一 睹 LDPC 的 风 


9.4.1. LDPC 是 什么 


LDPC 全 称 是 Low Density Parity-Check Code， 即 低 密度 奇偶 校 验 
码 。LDPC 的 特征 是 低 密 度 ， 也 就 是 说 校 验 算 阵 H 里 面 的 1 的 分 布 比 较 稀 


iL o 


比如 : 
|l 1i LU, DS D OH o B80 0 0 
UuwuurLiiruiIi'&nmbvowus uu] 
»uonmnooucge5o.i1lzczrcri«usssost 
pg.i99990000000201 111 
] 09090 0000 1900 I 0 0 1 O0 9 
i 
i 
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LDPC 又 分 为 正则 LDPC (regular LDPC) 和 非 正 则 LDPC (irregular 
LDPC) 编码 。 


正则 LDPC 保 证 : 校 验 矩阵 每 行 有 固定 J 个 1， 每 列 有 固定 K 个 1。 
非 正则 LDPC 没 有 上 述 限 制 。 
举例 ， 长 度 为 12 的 LDPC 编 码 C， 满 足下 列 校 验方 程 : 





O O OO — O O =. c 2 


C, DC. OC, dC, 


COC, BPC; DO, = 
C,BC,BC DC, =0 
C, DC, OC, 06, = 
Ci PC DC, DC, = 
C OC, DC 046, = 
C, OC, OC; GC, = 
C,00,00C,00, =0 
C, OC, OC, OC, = 
FIEEISAB EAR: 
CG G C, Cs C; C, Cs C, Co Ci C, 
o LL DH LL 31 idi wv WV m9» 9» 
L 0 90 I 9 0 O B8 9 DO | 
üU B f uoo B a8 X I! I d 
r "n 9D B JJ sr p»uv r: P mw 
~ LL 9B B OMM Bg b Sg B» 3! 9$ 
9 0 T + 0 O0 9 i1 09 O9 4 
D s i T Xm I 9» Y T o B 
?"» B mu "V I B 3 W" WW I ] 
i ro y gp UU DU V T? 4 P 9 


C,00,0C,00,-0 
60C,0C,0C,-0 
C,00,00,00,-0 
C,BC BCDC, =0 
Cecec BOO,=0 
C,00,0€,00€, -0 
G9C,00,0C,-0 
C,0090,90,-0 
C,00,0€, 060, -0 


我 们 看 到 H 和 矩阵 每 行 有 4 个 1， 每 列 有 3 个 1， 所 以 C 为 正则 LDPC。 


9.4.2 Tanner] 
WFSILDPC, /b^A f Tanner], HÁBEEn] LA ANGER ZyTannerd « 
Tanner 图 由 节点 和 连 线 组 成 。 


节点 有 两 种 : 一 种 叫 b 节 点 (bit node) ， 一 种 叫 c 节 点 Check 
node) 。 


假设 信号 编码 长 度 为 pn， 其 中 每 一 个 bit 用 一 个 b 点 表示 。 校 验方 程 
个 数 为 r， 每 一 个 校 验 方程 用 一 个 c 市 点 表示 。 


现在 连 线 ， 如 果 某 个 b 节 点 bi 参与 了 某 个 c 节 点 c 的 校 验 方程 ， 则 把 
b 节 点 bi 和 c 节 点 连 起 来 。 








注意 b 生 点 用 圆 形 表示 ，c 季 点 用 方块 表示 。 每 个 b 节 后 和 3 个 c 节 所 
相连 ， 每 个 c 节 点 和 4 个 b 市 点 相连 ， 如 图 9-6 所 示 这 是 一 个 典型 的 正则 
LDPC. 





图 9-6 Tanner] 


Tanner 图 把 编码 和 图 论 神奇 地 结合 在 了 一 起 。 有 了 Tanner 图 ， 
LDPC 的 解码 方法 就 比较 好 阐述 了 。 


95 LDPC 人 解码 


LDPC 的 解码 方法 有 硬 判 决 解码 Chard decision decode) 和 软 判 决 解 
码 〈soft decision decode) 两 种 。 


本 将 介绍 一 种 经 典 的 硬 判 决算 法 
决算 法 一 一 和 积 信息 传播 算法 。 





Bit-flipping 算 法 和 一 种 软 判 


9.5.1 ”Bit-flipping 算 法 


Bit-flipping 算 法 的 核心 思想 是 : 如 果 信 号 中 有 一 个 bit 参 与 的 大 量 校 
验方 程 都 校 验 失败 ， 那 么 这 个 bit 有 错误 的 概率 很 大 。 


好 的 校 验 方程 可 以 达到 上 述 效果 。 校 验 和 矩阵 的 稀疏 性 把 信和 号 的 每 个 
bit 尽 量 随机 地 分 散 到 多 个 校 验 方程 中 去 。Bit-flipping 算 法 运用 消息 传递 
方法 ， 通 过 不 断 迭 代 达 到 最 终 的 纠 错 效 果 。 

Bit-flipping 解 码 算法 如 下 : 


给 定 一 个 n bit 信 号 y (Ys Yoo Yn) > BEUSABEEH. mH HERE 
对 应 的 Tanner 图 。n bit 信 号 对 应 n 个 b 节 点 ，r 个 c 节 点 。 


1) 每 个 b 节 点 向 自己 连接 的 c 节 点 发 送 自己 是 0 还 是 1。 初 始 是 第 ji 个 
bit 发 送 初 始 值 y 


2) 每 个 c 节 点 收 到 很 多 b 节 点 的 信息 ， 每 个 c 节 点 代表 一 个 校 验方 
B. 
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3) 每 个 b 节 点 跟 好 多 c 节 点 相连 ，b 节 点 收 到 所 有 来 自 c 节 点 的 消息 
后 ， 采 用 投票 法 来 更 新 这 一 轮 输 出 的 消息 。 参 加 投票 的 包含 每 个 bit 的 初 
始 值 。 投 票 的 原则 是 少数 服从 多 数 。 


4) b 市 点 更 新 好 后 ， 停 止 条 件 ， 所 有 的 校 验方 程 满足 或 者 迭代 次 数 
超过 上 限 。 如 果 停 止 条 件 不 满足 ， 则 需要 转 到 步骤 1 继续 迭代 。 


下 面 举 个 例子 : 


输入 [1L01011， 经 过 步骤 1 后 ， 如 图 9-7 所 示 ， 实 线 箭头 表 
示 传 递 的 信息 为 1， 虚 线 箭 头 表 示 传 递 的 信息 为 0。 











图 9-7 +31 


经 过 步骤 2，c 节 点 给 各 个 b 节 点 发 回 消 轧 。 满 足 校 验方 程 的 c 节 点 原 
封 不 动 返回 消 轧 ， 不 满足 则 取 反 返回 ， 如 图 9-8 所 示 。 


步骤 3， 投 票 法 表决 并 重新 更 新 b 节 点 的 值 ， 如 图 9-9 所 示 。 
步骤 4， 重 新 检查 节点 ， 发 现 校 验方 程 满足 ， 结 束 ， 如 图 9-10 所 








Bit-flipping 算 法 有 很 多 细节 值得 讨论 。 


其 中 一 个 问题 是 ，b 市 点 更 新 时 ， 一 次 更 改 一 个 还 是 一 次 更 改 多 
个 ， 或 者 两 者 结合 。 因 为 校 验算 阵 的 结构 ， 如 果 同 时 改变 很 多 b 节 点 的 
话 ， 可 能 无 法 收敛 。 这 时 可 以 将 梯度 下 降 法 应 用 到 Bit-flipping 算 法 中 。 
通过 构造 目标 函数 ， 目 标 函 数 包括 校 验 方程 最 小 误 有 天 ， 以 及 与 原 信 与 最 
大 相似 ， 来 更 新 b 方 点。 最终 的 结论 是 ， 每 次 单个 bit 翻 转 的 收敛 性 好 ， 
但 是 比较 慢 ， 如 图 9-11a 所 示 ， 翻 转 多 个 的 话 会 导致 收敛 性 震 沪 ， 但 是 
速度 快 。 一 个 中 间 方案 是 ， 先 进行 多 个 bit 的 翻转 ， 等 校 验方 程 失败 的 个 
数 小 到 一 定 程度 后 ， 再 进行 单个 bit 翻 转 。 
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图 9-10 “步骤 4 


Local maxmum 





a) Single flipping b) Multiple flipping ( fixed) c) Multiple flipping ( dynamic ) 


图 9-11 几 种 Bit-flipping 算 法 收敛 示意 图 


9.5.2. ”和 积 信息 传播 算法 


这 一 节 我 们 来 介绍 和 积 信息 传播 算法 (sum-product message 
passing， 人 简称 和 积 算法 ) ， 它 是 在 贝 叶 斯 网 络 、 马 尔 可 夫 随 机 场 等 概率 
图 模型 中 用 于 推断 的 一 种 信息 传递 算法 。 目 前 广泛 应 用 于 人 工 智 能 和 信 
恩 处 理 领域 ， 而 它 的 一 个 非常 经 典 的 应 用 就 是 LDPC 码 。 


该 算法 的 基础 是 概 紊 论 ， 这 里 假定 读者 的 概率 论 知 识 没 有 全 部 还 给 
老师 。 


什么 是 条 件 概率 ? 什么 是 联合 概率 ? 什么 是 边缘 概率 ? 
条 件 概率 P〈AIB) 表示 在 事件 B 的 条 件 下 ， 发 生 事 件 A 的 概率 。 


P (BIA) =P CA, B) P CAD 。 其 中 P CAD P $) 分 别 表示 随 
机 事件 A、B 发 生 的 概率 。 


P CA, B) 表示 事件 A 和 事件 B 共 同 发 生 的 概率 ， 也 叫 联 合 概率 。 
而 且 我 还 知道 ， 贝 叶 斯 公式 : P (BJA) =P (A|B) P CB) [P CAD 


边缘 概率 则 是 指 从 多 元 随机 变量 中 的 概率 分 布 得 出 的 只 包含 部 分 变 
量 的 概率 分 布 ， 比 如 P CAD 。 

根据 联合 概率 函数 如 何 计算 其 他 类 型 的 概率 ? 举 个 例子 ， 联 合 概率 
P (A, B, C, D) =f (A, B, C, DO ， 则 边缘 概率 P CAD. 的 概率 要 
JEB. C. DBr& BUB sos pj — iM . 


pO ey. XsbUb Boo» 
P (AIB=1) =¥c ypf CA; Bei, C, D) 


s d 这 种 情况 下 ， 可 以 化 简 很 多 


[rii 


什么 是 贝 叶 斯 网 络 (Bayesian networks) ? 贝 叶 斯 网 络 是 一 种 推理 


性 图 模型 。 贝 叶 斯 网 络 可 以 帮助 你 更 好 地 分 析 问 题 。 比 如 如 下 网 络 ， 
w、X、y、z 分 别 表 示 4 个 随机 事件 ，w 表 示 一 个 人 是 否 吸烟 ，x 表 示 其 职 
业 和 煤矿 是 否 相 关 ，y 表 示 其 是 否 患 有 咽炎 ，z 表 示 其 是 否 得 肺 部 肿瘤 ， 
如 图 9-12 所 示 。 








y 2 
图 9-12 一 个 贝 叶 斯 网 络 例子 

贝 叶 斯 网 络 有 以 下 关系 : 

P Cw, x, y, z) =P (w) P GO P (ylw) P (zlw, x) 


我 们 只 要 知道 JP (w) . P G0 和 P (ylw) ~ P Czw, x), WA 
网 络 模型 就 构建 出 来 了 了 。P(w) 表示 一 个 人 抽烟 的 概率 ，P〈x) 表示 
只 业 和 煤矿 相关 的 概率 ， 这 两 个 可 以 用 社会 平均 统计 数据 。P Ow) 表 
示 吸 烟 与 否 的 条 件 下 得 咽炎 的 概率 。P (ylw=1) 表示 吸烟 者 得 咽炎 的 概 
R, P (ylw=0) 表示 不 是 吸烟 者 得 咽炎 的 概率 。P Cw, x) 表示 考虑 
是 个 吸 烟 和 是 人 否 在 煤矿 工作 的 情况 下 肺 部 得 肿瘤 的 概率 。 


这 个 网 络 建立 起 来 后 ， 当 w，x，y，z 发 生 任 意 一 件 或 者 几 件 事情 的 
时 候 ， 我 们 可 以 求 其 他 事件 的 后 验 概率 。 比 如 ， 当 y=1 时 ， 即 得 咽炎 的 
情况 下 ， 我 们 可 以 通过 网 络 算出 P〈zly=1) 即 得 咽炎 的 情况 下 得 肺 部 肿 
瘤 的 概率 。 当 z=1 时 ， 即 得 肺 部 肿瘤 的 情况 下 ， 我 们 可 以 反 推 算出 
P〈wlz=1) 即 得 肿瘤 的 情况 下 吸烟 的 概率 。 


什么 是 因子 图 ? 因 于 图 是 无 癌 的 概率 分 布 二 部 图 。 所 谓 因 于， 由 于 
事件 之 间 有 内 在 的 约束 关系 所 表现 出 来 的 一 种 逻辑 形式 ， 比 如 一 种 联合 
概率 可 以 表示 为 : 


P (A, B, C, D, E, F, G) ~f (A, B, C, D, E, F, G) =f 
(As By €) do (B: Ds EE (G FPL (C G) 


























在 这 种 情况 下 ， 联 合 概率 可 以 分 成 因子 乘积 的 形式 。 上 式 f 中 叫 作 
ARITE. fi SO 表示 第 i 个 因子 ， 用 S; 来 表示 其 约束 的 随机 变量 组 
^» WIS,-(A. B, C). 

例如 ; P CAD) Ya. c, p, Ei cll f S 


用 因子 图 来 表示 〈( 见 图 9-13) : 











图 9-13 一 个 因子 图 的 例子 
这 样 我 们 再 求解 边 绿 概率 就 比较 简单 了 ， 为 什么 呢 ? 根据 小 学 学 过 





的 数学 知识 一 一 乘法 分 配 律 : 





Xy, *xy? =X Cy, ty?) 
左 式 用 了 两 次 乘法 ， 一 次 加 法 ; 右 式 用 了 一 次 乘法 ， 一 次 加 法 。 
所 以 : 2i xyi =x}; yi 


乘 -加 变换 为 加 - 乘 后 ， 计 算 复 杂 上 度 降低 。 当 我 们 计算 边缘 概率 或 者 
其 他 形式 的 概率 时 ， 这 个 特性 非常 重要 。 


现在 求 P CAO : 


P(4« Y, HÁ(S) 


BCDEFG ' 


-OE AEM) 


B,C,D,E,F,G 


2, A(/AB,C) (B,D.E)5 f(C.F)$ fi (C.G) 


B.C.D.E 


2, A(4.B.C) (B.DEym,(C)m.,(C) 


B.C.D.E 


2, Afi BC) SUB, D,E Jm AC] 


B,C.D 


=> fí(4,B,C)* f, (B.D,E)m,.(C) 


B.C D.E 


= f (A B,C)m, (B)m.(C) 


B.C 
- f(4) 


F) ， mc, (C) -XGf, (C, G) , 


m, (C) mc, (C) mc, (C) 


有 了 上 边 的 公式 ， 最 终 得 到 : P CAD) ~xf CAD , £ CAO 就 是 上 面 
最 终 计算 出 的 只 跟 A 有 关系 的 函数 。 


故 可 以 设 P CAD) =Kf CAD ，K 为 归 一 化 因子 。 结 合 归 一 化 方程 : 
P (A=0) +P (A=1) =1 
可 以 求 得 P (A) 。 


上 面 的 推导 过 程 看 上 去 很 复杂 ， 其 实 就 是 乘法 结合 律 的 应 用 而 已 ， 
而 且 可 以 明显 看 到 求 边缘 概率 的 过 程 束 是 一 个 乘积 然后 相 加 的 过 程 ， 所 
以 叫 和 积 (sum-product) 。 而 且 mb Mm, 只 和 上 自己 的 约束 方程 有 关 。 在 
图 9-14 中 可 以 看 到 ， 这 种 优化 的 算法 看 上 去 像 信息 在 传播 。 推 而 广 之 ， 
如 果 图 很 复杂 ， 我 们 也 可 以 这 样 计算 。 从 需要 求 的 节点 A 看 ， 总 可 以 看 
o ee Toce ditti ctu bdedede 
JADRE. 














Kj9-14 mb flm, 在 图 上 的 表示 
了 解 了 可 能 涉及 的 数学 知识 ， 那 么 和 积 算 法 怎么 应 用 呢 ? 





此 处 为 了 讨论 方便 ， 用 X 表 示 真 实 信 息 ， 用 Y 表 示 随 机 观测 信号， 
可 以 是 电压 值 ， 也 可 能 是 探测 冰 值 〈 因 为 软 判 决算 法 可 以 利用 比 硬 判决 
算法 更 多 的 信道 信息 ， 如 图 9-15 所 示 ) 。 








Yı 


y» 


图 9-15 ”两 个 X=1 的 信号 P (X-1|Y-y,) 20.9 CAD , P (X=1|Y=y, ) 
=0.6 (Æ) 


我 们 建 一 个 模型 ， 没 错 就 是 Tanner 图 ，Tanner 图 也 是 一 种 因子 图 。 





如 图 9-16 所 示 ， 每 个 涂 色 方块 表示 一 个 c 证 把 ， 代 表 一 个 校 验 方 
程 ， 而 校 验 方程 是 一 种 非常 简单 的 约束 方程 。 举 个 例子 : 


1, 当 A+B+C=0 
0, 其 他 情况 

每 个 圆圈 表示 与 b 节 点 对 应 的 X ， 而 与 之 前 Tanner 图 不 同 的 是 ， 
个 b 节 点 都 有 唯一 的 观察 约束 节点 〈 用 空心 框图 表示 ) 与 之 绑 定 。 观 察 


约束 节点 负责 提供 P(Xi|Y; =y; ) ， 所 以 约束 方程 fY (X; ) =P (X; IY; 
=y; ) o 


fA,B,O= | 





图 9-16 ”Tanner 图 


我 们 的 目的 是 ， 求 得 每 一 个 边缘 概率 P 〈Xi ) o RARP (Xi) =K 
f〈Xi ) ，K 为 归 一 化 因子 。 如 果 f (Xi =1) «f (Xi =0) ， 我 们 输出 X; 
为 0， 人 否则 输出 1。 


下 面 见 证 奇迹 的 时 刻 到 了 。 
1) 首先 假定 Tanner 图 是 一 棵 树 (如 果 不 是 树 ， 后 面 有 讨论 ) 。 


20 对 于 任意 X; ， 为 了 方便 称 为 A， 我 们 把 它 当成 根 节点 ， 如 图 9- 
17 上 所 示 。 


3) 通过 消息 传播 的 方法 ，P〈A) 可 用 如 下 方法 求 得 : 


从 各 个 叶子 节点 往 根 节点 传播 消息 。 如 图 9-18 所 示 ， 五 个 m 都 是 
从 信道 得 来 。 比如 meo a =fo (A) =P (AlYA =yA ) 





消息 传播 到 b 节 点 〈( 见 图 9-19 中 的 圆圈 ) 后 ， 由 b 节 点 继续 向 根 节 
点 方向 传播 ， 进 入 下 一 个 约束 方程 的 范围 ， 穿 过 约束 方程 后 ， 原 来 的 消 
息 被 汇聚 成 新 的 消息 ， 如 果 有 两 个 约束 方程 连 到 同一 个 b 节 点 ， 则 信息 
相 乘 后 继续 传播 。 图 9-19 是 一 个 局 部 示意 图 。 


可 以 计算 mp =}p, gf; (B. D, E) mp mg 


(3B) 继续 传播 ， 直 到 所 有 的 消息 最 终 传 到 A 〈 见 图 9-20): 











Pp (A) 一 Ifg9,A MA 


这 样 就 求 得 了 JP CAO ， 同 理 其 他 所 有 的 边缘 分 布 都 可 以 求 出 来 ! 
读者 通过 观察 应 该 友 现 ， 这 个 消 恩 传播 的 算法 其 实 可 以 并 行 化 ， 只 要 各 
微 更 改 一 下 算法 即 可 。 

下 面 介绍 如 何 简单 地 实现 并 行 化 。 

为 了 同时 求 出 所 有 边 缘分 布 ， 每 个 B 节 点 对 消息 进行 路 由 。 把 每 个 
约束 方程 的 方向 当成 根 市 点 对 待 ， 把 不 是 这 个 方 辐 传 来 的 所 有 消 妃 相 乘 
之 后 送出 去 。 收 到 消 奶 时 如 图 9-21 所 示 。 


X 节 点 发 送 消息 ， 如 图 9-22 所 示 。 

















图 9-17 ”一 个 节点 对 应 一 柠 树 











图 9-19 一 个 局 部 示意 图 





Kj9-20 ”最 后 一 步 
Wyri-—x ny»- 








图 9-22 XX 发 送 给 各 节点 消息 


并 且 满 足 : 
Mx—f2=Mfı—xMf3—X 


Mx—f3=Mfı—xMf2—>X 








HEREA ER CADRZT TEDESCHI R ULVEEDSEAS EH RT RER 
ftxtirib A. Ej9-233Xom T BIET EXIT PE TERIS e 


cH eus b s eXSm S COLE-24) : 


may» J (BDE) my ,ms ,. 
D.E 

WE FJ (B,DE ) my m sy 
B,E 


W, x» f(B,D,E)ms ms... 
D.B 





图 9-23 ” 通 辐 的 束 方程 的 各 个 消息 





图 9-24 “< 季 点 往 各 个 b 贡 点 传递 消 奶 


最 终 ， 经 过 多 次 迭代 【最 多 为 因子 图 中 最 大 深度 树 的 两 倍 深 上 度 )， 
得 到 所 有 市 把 的 边缘 概率 P。 算 法 结束 。 





值得 讨论 的 是 ， 前 边 的 算法 假定 Tanner 图 是 无 环 的， 每 一 个 节点 都 
可 以 拉 出 一 棱 树 来 。 在 现实 中 ， 这 个 假定 是 不 成 立 的 ， 但 是 该 算法 也 有 
不 错 的 表现 ， 不 过 环 对 纠 错 的 成 功 与 否 有 着 很 大 的 影响 。 





9.6 LDPC 编 码 


LDPC 是 一 种 以 解码 为 特点 的 编码 ， 由 于 LDPC 的 性 质 主 要 由 H 和 窍 阵 
决定 ， 一 般 先 确 定 H 和 矩阵 后 ， 反 推 回 生成 矩阵 G。 


HIEMER, MIER: 
1) 保持 黎 焉 。 每 行 每 列 里 1 的 个 数 要 固定 ， 或 者 接近 固定 。 
2) 考虑 到 生成 窍 阵 的 计算 复杂 度 。 


3) 保持 随机 性 。 减 少 H 和 矩阵 里 小 环 的 个 数 。 图 9-25 展 示 了 一 个 长 为 
4 的 小 环 (b 市 点 、c 市 点 和 连 线 组 成 的 环 〉。 


图 9-25 ”Tanner 图 上 的 一 个 小 环 
显然 这 两 个 b 节 点 共同 参与 了 两 个 相同 的 校 验方 程 。 我 们 叫 它们 双 
胞 胎 ， 对 bit-flipping 而 言 ， 假 如 它们 之 间 有 一 个 错误 ， 我 们 将 无 法 对 错 
误 进行 定位 。 对 和 积 算法 而 言 ， 环 越 长 ，BP 算 法 效果 越 好 。 
关于 LDPC 编 码 的 其 他 介绍 ， 读 者 可 以 参阅 最 新 的 学 术 成 果 ， 在 此 
不 作 展 开 。 





9.7 LDPC 在 SSD 中 的 应 用 


本 节 介 绍 NAND 纠 错 模型 ， 以 及 LDPC 在 SSD 中 的 纠 错 流程 。 


9.71 NAND 会 出 错 


在 本 书 第 1 章 中 ， 我 们 知道 ， 纠 错 能 力 是 一 个 SSD 质 量 的 重要 指 
标 。 最 开始 的 NAND 每 个 存储 单元 只 放 一 个 bit， 叫 SLC， 后 来 又 有 了 
MLC， 现 在 主流 的 是 TILC。 在 存储 密度 不 断 增加 的 同时 ， 器 件 尺 寸 变 
小 ， 存 储 单元 电气 耦合 性 变 得 很 复杂 。 比 如 氧化 层 变 得 很 薄 ， 比 如 读 取 
单个 bit 需 要 的 读 电 压 控 制 能 力 更 精密 等 ， 总 的 来 说 ，NAND flash 更 容易 
出 错 了 ， 或 者 说 NAND 上 的 噪声 增加 了 。 


RBER (Raw Bit Error Rate) 是 衡量 NAND 质 量 的 重要 参数 。 给 定 
RBER， 可 以 比较 各 种 纠 错 算法 的 有 效 性 ， 如 图 9-26 所 示 。 





10? 


c 
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Decoding Failure Probbillty 


== BCH code 


LDPC code ( hard-drcision sensing ) 








== [DPC code (six extra sensing levels) 


10+ 
0.02 0.018 0.016 0.014 0.012 0.01 0.008 0.006 0.004 
Raw Bit Error Rate 


图 9-26 ”曲线 从 右 到 左 依次 是 BCH、LDPC 硬 判决 算法 、LDPC 软 判决 算 
法 ， 纵 轴 表 示 纠 错失 败 的 概率 ， 横 轴 表 示 RBER 


可 以 看 到 ，LDPC 软 判决 算法 由 于 有 更 多 的 信道 信息 ， 相 对 于 BCH 
和 LDPC 硬 判决 算法 更 有 优势 。 





9.72 NAND 纠 错 模 型 








NAND 的 基本 特性 请 参阅 第 3 章 。 我 们 存储 进 NAND 的 信息 通过 电 
子 储存 起 来 ， 读 的 时 候 通 过 探测 器 件 储存 的 电子 多 少 来 恢复 数据 。 


音 恩 0 和 1 在 NAND 上 的 电压 分 布 图 “示意 图 ) 如 图 9-27 所 示 ， 以 
SLC 为 例 ， 该 分 布 可 以 通过 大 量 的 数据 探测 出 来 。 坚 线 的 横 坐 标 值 对 应 
NAND 的 读 取 阔 值 电压 。 可 见 ， 对 于 1 的 概率 分 布 在 闹 值 电压 右 侧 的 将 
会 被 NAND 硬 判决 成 0， 从 而 导致 bit 翻 转 。 


通过 调节 不 同 的 阔 值 电压 来 对 NAND 进 行 多 次 读 取 ， 可 以 获得 额外 
的 信息 得 到 阐 值 电压 在 哪个 区 间 〉， 如 图 9-28 所 示 。 利 用 概率 论 的 知 
识 ， 可 以 建立 统计 模型 。 








图 9-27 SLC 两 种 状态 的 概率 分 布 示 意图 ， 竖 线 的 横 坐 标 值 对 应 阐 值 电 





ME 


图 9-28 多 次 调整 读 取 电 压 


假设 写 入 的 信息 为 X，X 取 值 {0，1}， 其 阔 值 电压 为 Y， 调 节 读 取 电 
压 国 值 后 ， 根 据 读 出 值 将 整个 区 域 分 成 了 4 个 区 间 。 


图 9-28 所 示 的 左右 两 条 曲线 分 别 为 p (YIX=1) Mp CY[X-00. 的 曲 
线 。 根 据 之 前 和 积 算法 的 介绍 ， 我 们 感 兴趣 的 是 : P〈XIY=A) ， 
P (ZIY-B) ，P= (X|Y2O) , P (XlY=D〉。 知 道 这 几 个 概率 后 ， 
LDPC 软 判决 算法 如 和 积 算法 ) 就 可 以 工作 了 。 根 据 前 面 对 条 件 概率 
和 贝 叶 斯 公式 的 复习 ， 下 面 的 工作 交 给 读者 研究 。 





9.73 LDPC 纠 错 流 程 





LDPC 在 SSD 中 的 纠 错 流程 如 图 9-29 所 示 ， 值得 注意 的 是 ，NAND 便 
判决 、 数 据 传 输 到 控制 器 ， 以 及 硬 判 决 解码 这 几 个 过 程 的 速度 都 很 快 。 
an 卖 很 多 次 ， 传 输 数 据 很 多 次 ， 所 以 会 对 SSD 的 性 能 产生 不 好 的 


NAND 硬 判 决 存 储 信息 


数据 传输 到 控制 器 


LDPC 的 便 判 决 解码 


LDPC 软 判 决 读 


软 判决 数据 传输 到 控制 器 


LDPC 软 判 决 解码 






成 功 结束 
图 9-29 ”LDPC 纠 错 流程 
为 了 提高 性 能 ， 一 种 普遍 的 优化 是 ， 把 LDPC 软 判决 的 分 辩 率 变 成 





动态 可 调 ， 这 样 只 有 在 最 坏 的 情况 下 ， 才 需要 最 高 的 分 辨 率 去 读 。 这 样 
在 大 部 分 情况 下 ， 软 判决 读 和 软 判 决 传输 数据 的 时 间 开 销 将 大 幅度 减 


小 。 


